Prof. Dr. Budiyono, M.Sc. 


PENGANTAR 

PENILAIAN HASIL BELAJAR 


SEBELAS MARET UNIVERSITY PRESS 



Perpustakaan Nasional: Katalog Dalam Terbitan (KDT) 

Prof. Dr. Budiyono, M.Sc. 

Pengantar Penilaian Hasil Belajar. Cetakan 1. Surakarta . UPT UNS Press. 2015 
x + 202 hal; 24.5 cm 


PENGANTAR PENILAIAN HASIL BELAJAR 

Hak Cipta©Budiyono. 2015 
Penulis 

Prof. Dr. Budiyono, M.Sc. 

Editor 

Dr s. Suyono, M. Si. 


Ilustrasi Sampul 

UPT UNS Press 

Penerbit 

UPT Penerbitan dan Pencetakan UNS (UNS Press) 

Jl. Ir. Sutami No. 36 A Kentingan, Jawa Tengah, Indonesia 57126 
Telp. 0271-646994 Psw. 341 Faximale 0271-7890628 
Website : www.unspress.uns.ac.id 
Email: unspress(®uns.ac.id 

Cetakan 1, Edisi 1, Januari 2015 
Hak Cipta Dilindungi Undang-undang 
Ali Right Reserved 


ISBN 978-979-498-958-6 




PRAKATA 


Buku ini ditulis dengan tujuan untuk menambah pustaka buku-buku 
>ang berbicara mengenai penilaian berbahasa Indonesia. Sasaran buku ini 
adalah para peneliti, khususnya, para peneliti pemula bidang pendidikan 
dan psikologi, dan para guru yang telah mengajar di lapangan untuk me¬ 
nambah bekal pengetahuan mengenai penilaian. Tentu saja buku ini dapat 
dipakai sebagai referensi bagi mahasiswa yang sedang menempuh mata- 
kuliah penilaian hasil belajar. 

Buku ini terdiri dari sebelas bab. Bab I membahas konsep pengukuran 
dan penilaian. Bab II memuat secara ringkas mengenai teori pengukuran, 
baik teori tes klasik maupun teori respons butir. Pada bab ini dibicarakan 
asumsi-asumsi pada teori tes klasik dan teorema-teorema yang mengikuti¬ 
nya. Bagi pembaca yang tidak terlalu menyukai matematika, bab ini dapat 
dilewati. Bab III memuat tes dan persyaratannya, yaitu validitas dan relia- 
bilitas. Bab IV mendiskusikan berbagai hal mengenai penilaian pada ranah 
kognitif. Pada bab ini dibicarakan mengenai berbagai jenis tes tertulis, baik 
untuk constructed-response test maupun selected-response test , termasuk 
tes pilihan ganda. Bab V membicarakan analisis butir pada penilaian ranah 
kognitif, termasuk pembicaraan mengenai tingkat kesuliran, daya pembeda, 
maupun berfungsinya pengecoh. Bab VI membiacarakan non tes, di anta¬ 
ranya adalah pengukuran sikap dengan skala Likert, skala Thurstone, dan 
skala beda semantik. Bab VII membicarakan instrumen penilaian untuk 
tanah afektil, cara penyusunannya, validitas, dan reliabilitasnya. Bab VIII 
mendiskusikan instrumen penilaian pada ranah psikomotor beserta cara 
menyusunnya. Bab IX memuat beberapa penilaian alternatif, yaitu peni¬ 
laian berbasis kelas, penilaian untuk pembelajaran, dan penilaian otentik. 
Bab X memut penilaian portofolio, penilaian yang mulai mendapatkan 
perhatian di sekolah. Bab terakhir, yaitu Bab XI memuat hal yang belum 


v 



banvak diketahui orang, yaitu mengenai bias butir atau keberbedaan tungsi 
butir (dijferential item functioning). 

Kepada semua pihak yang membantu dan memungkinkannya diter¬ 
bitkannya buku ini. terutama kepada Sebelas Maret University Press, pe¬ 
nulis mengucapkan terima kasih. Mudah-mudahan usaha kecil mi ber¬ 
manfaat besar. Tak ada gading yang tak retak, saran dan kritik membangun 
dari pembaca akan penulis terima dengan senang hati. 


Surakarta, Januari 2015 

Budiyono 
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BAB I 

PENGUKURAN DAN PENILAIAN 


PENDAHULUAN 

Pendidik yang baik seharusnya berkeinginan untuk mengetahui apakah 
hal-hal yang disampaikan di kelas dapat diterima dengan baik oleh peserta 
didiknya atau tidak. Pendidik yang baik seharusnya ingin tahu apakah 
peserta didiknya telah belajar pada arah yang benar atau tidak. Pendidik 
yang baik juga pasti berkeinginan untuk membantu peserta didik yang 
mengalami kesulitan belajar. Untuk mengetahui hal-hal seperti itulah 
diperlukan apa yang disebut asesmen ( assessment ) atau penilaian. 1 

Dulu orang beranggapan bahwa pembelajaran dan penilaian adalah dua 
kegiatan yang terpisah. Namun demikian, sekarang berkembang “pan¬ 
dangan baru’' mengenai pembelajaran, bahwa “when you teach, you begin 
with assessment ” (DiRanna, et al. 2008: 7). Ini berarti, pembelajaran dan 
penilaian adalah dua kegiatan yang saling berintegrasi, tak terpisahkan, dari 
awal sampai akhir pembelajaran. 


PENGUKIRAN 

Untuk dapat melakukan penilaian, dilakukan suatu kegiatan yang di¬ 
sebut pengukuran (measurement). 

Allen dan Yen (1979: 2) mendefinisikan pengukuran sebagai pem¬ 
berian bilangan kepada seseorang dengan cara yang sistematis untuk 
menyatakan sifat-sifat seseorang (measurement is the assigning of tutmbers 
to individuals m a systematic way as a means of representing properti es of 


Pada buku ini istilah asesmen dan penilaian dianggap istilah yang sama. Kadang disebut 
dengan istilah asesmen. kadang disebut dengan istilah penilaian. 
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the individuals). Di sisi lain. Reynolds. Livingstone. dan Willson (2010: 3) 
mendefinisikan "measurcment /s u set oj ntles for assigning numbers to 
represent objects, traits. attributes, or behaviors . Pada definisi tersebut, 
pengukuran diartikan sebagai sekumpulan cara untuk memberikan bilangan 
kepada objek, kemampuan, atribut, atau perilaku untuk menyatakan 
kuantitas objek, kemampuan, atribut atau perilaku yang diukur. Bilangan- 
bilangan yang dilekatkan sebagai hasil pengukuran harus dilakukan dengan 
proses yang diatur secara cermat, hati-hati, dan dapat diulang (repeatable 
pmcedure). 

Teori pengukuran adalah cabang statistik terapan sang beiusaha un¬ 
juk: ( 1 ) menjelaskan, mengkategorisasi, dan mengevaluasi kualitas peng¬ 
ukuran. (2) meningkatkan kegunaan, akurasi, dan kebermaknaan peng¬ 
ukuran. dan (3) mengembangkan metodologi untuk pengembangan instru¬ 
men (instnnnent de\ clopmcnt) pengukuran yang baru dan lebih baik. 

Sejarah teori pengukuran dapat dibaca dari beberapa buku, misalnya 
dari buku yang berjudul A Histoty oj Psychologictil Iestiug yang ditulis oleh 
Philip H. bu Bois. pada 1970 (Allen dan Yen, 1979: 2). Isi dari buku itu 
dapat disarikan sebagai berikut. 

Teori pengukuran meningkatkan penggunaan ujian dalam tiga ke¬ 
lompok besar bidang pengembangan, yaitu: (1) ujian-ujian kepada pega-wai 
(civil Service exam) y (2) ujian-ujian sekolah (school exams) y dan (3) studi 
mengenai perbedaan individual (study of individual diffetences ). Ujian 
penerimaan pegawai dimulai di China kira-kira tiga ribu tahun yang laiu 
ketika kerajaan memerlukan pengetahuan untuk mengukur kompetensi 
pegawainya. Sampai pada abad kedua belas, siswa-siswa di sekolah-sekolah 
di Eropa diberi ujian lisan. Setelah dapat diciptakan kertas ujian-ujian tulis 
mulai diberlakukan. 

Studi mengenai perbedaan individu dimulai di Inggris ketika Sii 
Francis Galton (1822-1911) mendirikan laboratorium terkenal yang disebut 
Antrometric Laboratory yang berisi instrumen untuk mengukur berbagai 
ketrampilan sensori dan gerak motorik ( sensory and motor skills). Kari 
Pearson (1857-1936) mengembangkan berbagai teknik statistik sebagai inti 
dari dasar-dasar teori pengukuran. Di Perancis, Altred Binet (1857-1911) 
mengembangkan pertama kali tes inteligensi pada tahun 1905 sebagai bagia». 
dari studinya mengenai perbedaan individu. Di Jerman. William Stern 
(1871-1938) mengembangkan tingkat kecerdasan ( inteliigence quotietu IQ) 
yang didefinisikan sebagai perbandingan antara mental age «yang diukur) 
dengan chronological age (yang senyatanya). Di Inggris. Charles Spearman 
(1863—1945), sebagai pengikut Galton dan Pearson. mengembangkan 
berbagai cara untuk mengukur koefisien reliabilitas. 
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Mula-mula tes (ujian) diperuntukkan secara individual, one individual 
at a time. Ujian secara klasikal muncul pertama kali ketika Amerika Serikat 
memberikan ujian kepada calon-calon pasukan militer pada Perang Dunia 
Pertama. Kesuksesan Amerika Serikat menggunakan ujian klasikal menjadi 
pemicu digunakannya ujian klasikal di sekolah-sekolah dan industri, sampai 
dengan saat ini. 

Buku-buku mengenai teori pengukuran sudah lama ditulis orang. 
Misalnya, pada tahun 1904, E. L. Thorndike menulis buku yang berjudul An 
Introduction to the Theory of Mental and Social Measurement . Walaupun 
sudah dibicarakan lama, namun teori pengukuran sebagai salah satu cabang 
ilmu mulai berkembang secara serius sekitar tahun 1930-an. Mulai pada 
masa itu. jurnal-jurnal ilmiah mengenai teori pengukuran mulai 
bermunculan. Pada tahun 1935. diterbitkan jurnal yang berbicara mengenai 
teori pengukuran yang diberi nama jurnal Psychometrica. Pada 1941 terbit 
jurnal Educational and Psychological Measurement . Pada tahun 1947 terbit 
jurnal British Journal of Stafistiea! Psychology. Jurnal-jurnal mengenai teori 
pengukuran sekarang ini sudah sangat banyak. Penelitian-penelitian 
mengenai teori pengukuran terus berkembang sampai sekarang 

Untuk melakukan pengukuran perlu menggunakan alat ukur. Dalam 
proses pembelajaran, perangkat tes merupakan salah satu alat ukur. Agar 
pengukuran dapat memberikan hasil seperti yang diharapkan, maka diperlu¬ 
kan karakteristik alat ukur yang tepat. Dalam proses pembelajaran, sebelum 
menggunakan alat ukur perlu dilakukan identifikasi tentang karakteristik 
peserta didik yang akan diukur, karakteristik materi pembelajaran, jenis 
tingkah laku yang akan diukur, dan prosedur yang akan digunakan untuk 
melakukan pengukuran. 

Pada umumnya, berdasarkan objek yang diukur, orang membedakan 
pengukuran atas dua hal, yaitu pengukuran fisik dan pengukuran psikologik. 
Pengukuran tinggi badan dan berat badan adalah contoh pengukuran fisik, 
sedangkan pengukuran mengenai tingkat kecerdasan dan tingkat kestabilan 
emosi seseorang adalah contoh pengukuran psikologik. 

Pengukuran psikologik menjadi bahan kajian menarik dan menjadi 
bagian baku kurikulum mahasiswa psikologi dan pendidikan setelah pada 
tahun 1904 Thorndike mempublikasikan bukunya yang berjudul An Intro¬ 
duction to the Theory of Merdui and Social Measuremeni (Crocker & 
Algina. 1986: 10). Teori-teori yang ada di buku tersebut kemudian disem¬ 
purnakan oleh pakar-pakar pengukuran. Kumpulan body of knowledge 
tersebut, yang kemudian populer dengan* nama teori tes klasik ( classical test 
theory). memberikan dasar teori untuk pengembangan tes kecerdasan, tes 
prestasi, tes kepribadian, dan tes psikologik yang lain. 
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PENILAIAN 

Banvak para ahli mendefinisikan penilaian (asesmen) secara berbeda. 
Johnson & Johnson (2002: 6) mendefinisikan " assessment is colleaing 
informution abaiit the gualiry or cjttantiry oj a change in student. eroup. 
teacher, vr administrator". Johnson & Johnson memandang penilaian seba¬ 
gai suatu usaha untuk mengumpulkan informasi mengenai kuantitas atau 
kualitas dari adanya suatu perubahan yang terjadi pada peserta didik, ke¬ 
lompok. pendidik, atau pelaksana pendidikan. Pada definisinya, Johnson & 
Johnson menekankan kepada adanya perubahan (change) dan kuantitas dan 
kualitas perubahan itu yang merupakan fokus penilaian. 

Di sisi lain. AERA. APA. & NCMFi <1999: 172) mengatakan bahwa 
”assessnieni /s anv sistematic method oj ohuiining Information front test and 
nther sonnc.s ;<■ drau- inferences ah, -m characteristic oj pcopic 

objects. orpmgraim" Berdasarkan definisi ini. penilaian adalah cara siste¬ 
matis untuk memperoleh informasi, yang informasi ini dapat diperoleh dai i 
suatu te> atau sumber lain, untuk melakukan kesimpulan mengenai karak¬ 
teristik orang, objek, atau program yang dinilai. Menurut AERA, APA, At 
NCME, asesmen dapat dilakukan melalui tes atau non-tes. 

Khususnya di bidang pendidikan, Popham (2005: 3) mendefinisikan 
“educational assessment is a formal attempt to determine the status of a 
student respect to educational variables of interes t Popham mendefinisi¬ 
kan penilaian pendidikan sebagai sebuah usaha formal untuk menentukan 
kedudukan atau status peserta didik terkait dengan variabel pendidikan yang 
ditentukan. 

Permendikbud Nomor 104 Tahun 2014 tentang Penilaian Hasil Belajar 
oleh Pendidik mendefinisikan penilaian sebagai berikut. 

Penilaian hasil belajar oleh pendidik adalah proses pengumpulan informa¬ 
si/bukti tentang capaian pembelajaran peserta didik dalam kompetensi sakap 
spiritual dan sikap sosial, kompetensi pengetahuan, dan kompetensi kete¬ 
rampilan yang dilakukan secara terencana dan sistematis, selama dan selelah 
proses pembelajaran. 

Di luar definisi-definisi tersebut, masih banyak definisi penilaian yang 
dikemukakan orang. Namun demikian, pada prinsipnya terdapat kesamaan 
pandang mengenai penilaian. Pertama, penilaian menyimpulkan mengenai 
karakteristik atau uuiabel yang dipilih. Kedua, kesimpulan dari kegiatan 
penilaian adalah pernyataan mengenai kualitas, kuantitas, atau kedudukan 
sesuatu yang dinilai. Ketiga, kegiatan penilaian dilaksanakan secara siste¬ 
matis dan terencana. 

Menurut Permendikbud Nomor 104 Tahun 2014, ada 9 prinsip peni¬ 
laian yang adalah sebagai berikut. 
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1. Sahih, berarti penilaian didasarkan pada data yang mencerminkan ke¬ 
mampuan yang harus diukur. 

2. Objektif, berani penilaian didasarkan kepada prosedur dan kriteria yang 
jelas, tidak dipengaruhi subjektivitas penilai. 

3. Adil, berani penilaian tidak menguntungkan atau merugikan pe>erta 
didik karena kebutuhan khusus serta perbedaan latar belakang agama, 
suku, budaya, adat istiadat, status sosial ekonomi, dan gender. 

4. Terpadu, berarti penilaian oleh pendidik merupakan salah satu kompo¬ 
nen yang tak terpisahkan dari kegiatan pembelajaran. 

5. Terbuka, berarti prosedur penilaian, kriteria penilaian, dan dasar peng¬ 
ambilan keputusan dapat diketahui oleh pihak yang berkepentingan. 

6. Holistik dan berkesinambungan, berarti penilaian oleh pendidik menca¬ 
kup semua aspek kompetensi dan dengan menggunakan berbagai teknik 
pendilaian yang sesuai dengan kompetensi yang harus dikuasai pe-. 

didik 

7. Sistematis, berarti penilaian dilakukan secara berencana dan bertahap 
dengan mengikuti langkah-langkah baku. 

8. Akuntabel, berarti penilaian dapat dipertanggungjawabkan, baik dari segi 
teknik, prosedur, maupun hasilnya. 

9. Edukatif, berarti penilaian dilakukan untuk kepentingan dan kemajuan 
peserta didik dalam belajar. 

Popham (1995) mengatakan ada 4 tujuan penilaian, yaitu untuk: (1) 
mendiagnosis kekuatan dan kelemahan peserta didik, (2) memonitor kema¬ 
juan peserta didik, (3) memberikan nilai ( grade ) pada peserta didik, dan (4) 
menentukan efektivitas pembelajaran yang dilakukan pendidik. Senada de¬ 
ngan Popham, Johnson & Johnson (2002), merumuskan 3 tujuan penilaian, 
yaitu untuk: (1) mendiagnosis pengetahuan dan keterampilan peserta didik, 
(2) memonitor kemajuan peserta didik terkait dengan tujuan pembelajaran, 
dan (3) menyediakan data untuk memberikan nilai kepada peserta didik. 

Terkait dengan diagnosis kekuatan dan kelemahan peserta didik, de¬ 
ngan penilaian diharapkan para pendidik dapat mempunyai pengetahuan 
mengenai kekuatan dan kelemahan peserta didik dalam berbagai aspek 
tujuan pembelajaran yang telah dirancangnya. Terkait dengan monitoring 
kemajuan peserta didik, dengan penilaian diharapkan pendidik dapat me¬ 
nentukan apakah pendidik telah mendapatkan kemajuan seperti yang 
diharapkan. Bila tidak terjadi kemajuan seperti yang diharapkan, pendidik 
diwajibkan untuk melakukan suatu upaya profesional agar diperoleh kema¬ 
juan seperti yang diharapkan. Terkait dengan pemberian nilai kepada peser¬ 
ta didik, dengan penilaian diharapkan pendidik dapat memberikan nilai 
sebagai status final kemampuan peserta didik di akhir satuan pembelajaran. 
Akhirnya, terkait dengan penentuan efektivitas pembelajaran, dengan 
penilaian, pendidik akan mengetahui apakah proses pembelajaran yang telah 
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dirancangnya berjalan efektif atau tidak. Jika sebagian besar peserta didik 
mendapat nilai jelek pada akhir satuan pembelajaran, pada hal seharusnya 
tidak demikian, maka pembelajaran yang telah dilaluinya tidak dapat 
dikatakan efektif. 

Jonhson & Johnson (2002) menggolongkan penilaian ke dalam tiga 
jenis, yaitu: penilaian diagnostik, penilaian formatif, dan penilaian sumatif. 
Penilaian diagnostik dilakukan untuk mengetahui kekuatan dan kelemahan 
peserta didik. Dengan penilaian diagnostik, para pendidik diharapkan dapat 
mengetahui kesalahan dan/atau miskonsepsi yang terjadi sebelum atau 
sesudah pembelajaran berlangsung. Penilaian ini dapat pula dipakai untuk 
mengumpulkan informasi mengenai apa yang telah diketatuii dan yang 
belum diketahui oleh peserta didik. 

Penilaian formatif dilaksanakan -eca.ra kontinu sepati: n g -aiuan 
pembelajaran dengan tujuan utama untuk memperoleh balik.n:. Fenilaian 
formatif merupakan bagian integral dari proses pembelajaran dengan dua 
alasan. Pertama, penilaian formatif memberikan balikan kepada peserta didik 
yang terkait dengan kemajuan yang telah ia capai. Kedua, penilaian formatif 
memberikan balikan kepada pendidik terkait dengan kemajuan proses 
pembelajaran yang dirancangnya dalam kaitannya dengan efektivitas 
pembelajaran yang menjadi tujuannya. Dengan penilaian formatif, kesa¬ 
lahan dan/atau miskonsepsi yang terjadi selama pembelajaran dapat dide¬ 
teksi dan dicarikan jalan untuk memperbaikinya. 

Penilaian sumatif mempunyai tujuan utama untuk menentukan kedu- 
dudukan peserta didik terkait dengan tujuan pembelajaran yang telah diran¬ 
cang. Dalam bahasa sederahana, penilaian sumatif mempunyai tujuan utama 
untuk memberikan nilai (grade) kepada peserta didik. Biasanya, penilaian 
sumatif dilakukan pada akhir satuan pembelajaran untuk menentukan status 
Final peserta didik dalam kaitannya dengan tujuan pembelajaran yang telah 
dirancang oleh pendidik. Penilaian sumatif biasanya berbentuk ujian 
semester atau ujian akhir satuan pendidikan. 

Untuk menentukan keberhasilan peserta didik dalam mengikuti proses 
pembelajaran, ada dua cara, yaitu penentuan keberhasilan berdasar-kan 
acuan norma ( norm-referenced ), yang sering disingkat PAN (Penilaian 
Acuan Norma), dan penentuan keberhasilan berdasarkan laitcria atau pa¬ 
tokan (r n t cr ion - referenced ), yang sering disingkat PAP (Penilaian Acuan 
Patokan). 

Keberhasilan seorang peserta didik pada penilaian berdasar PAN 
dibandingkan dengan keberhasilan teman-teman sekelompoknya. Keber¬ 
hasilan seorang peserta didik pada penilaian berdasar PAP dibandingkan 
dengan kriteria atau standar yang telah ditetapkan oleh pendidik sebelum 
pembelajaran pada satuan waktu pembelajaran berlangsung. Pelaksanaan 
penilaian berdasar PAP lebih kompleks daripada pelaksanaan penilaian 
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berdasar PAN. Pada pelaksanaan penilaian berdasar PA P, (1) the domain of 
leaming lasks be clearly defined . (2) the standards of performance be 
clearlv specified and justified , dan (3) ihe niea.su res of student achievement 
be criterion referenced (Gronlund. 198^ t. 

Pada umumnya, seorang pendidik tidak >a\a harus melakukan peni¬ 
laian pada aspek kognitif, tetapi juga pada aspek atektif dan psikomotor. 
Dengan demikian, terdapat target penilaian untuk aspek kognitif, target 
penilaian untuk aspek afektif, dan target penilaian untuk aspek psikomotor. 

Menurut Popham (1995). target penilaian aspek kognitif menitik¬ 
beratkan kepada operasi intelektual iintclelecntai opcrations) peserta didik, 
target penilaian aspek afektif menitikberatkan kepada sikap ( attitndes j dan 
nilai-nilai (valtuM yang dipunyai oleh peserta didik, dan target penilaian 
aspek psikomotor menitikberatkan kepada ke'n nimrilan gerak otot Uarge- 
mascle and smail-muM le skills ,. 

Senada dengan Popham. Anderson i!9Ms mengatakan bahu a aspek 
kognitif menitikberatkan kepada hal-hal yang berkaitan dengan cara berpi¬ 
kir ( typical ways oj thinking), aspek atekut menitikberatkan kepada hal-hal 
yang berkaitan dengan perasaan ( typical ways of feeling), dan aspek 
psikomotor menitikberatkan kepada hal-hal yang berkaitan dengan cara 
tindak ( typical ways of acting ).“ 


ASUMSI-ASUMSI PADA PENILAIAN PENDIDIKAN 

Menurut Reynolds, Livingston, dan Willson (2010: 9-13), ada bebe¬ 
rapa asumsi yang melandasai penilaian pendidikan ( educational assess- 
ment). Asumsi-asumsi itu secara ringkas disebutkan berikut ini. 

1. Psychological and educational construct e.xists. Pada penilaian pendi¬ 
dikan, didefinisikan apa yang disebut konstruks. AERA, APA, dan 
NCME (1999) mendefinisikan konstruks sebagai kemampuan atau 
karakteristik yang diukur oleh suatu tes. Misalnya, prestasi belajar 
adalah suatu konstruks yang menyatakan pengetahuan atau pemahaman 
( accomp/ishments) seseorang pada suatu bidang yang telah diterimanya 
melalui pembelajaran 2 3 . Contoh lain konstruks adalah inteligensi dan 
sikap terhadap pembelajaran. Diasumsikan bahwa konstruks-konstruks 
tersebut ada. 


2 Pada Kurikulum 2013. didefinisikan adanya tiga domain tujuan pembelajaran, yaitu tujuan 
pembelajaran di domain pengetahuan, sikap, dan keterampilan. Perlu dilakukan pengkajian 
lebih lanjut, apakah tujuan di domain pengetahuan identik dengan tujuan di domain kognitif, 
apakah tujuan di domain sikap identik dengan tujuan di domain afektif, dan apakah tujuan di 
domain keterampilan identik dengan tujuan di domain psikomotor. 

3 Berdasarkan definisi ini. peserta didik yang dikenai tes prestasi belajar, harus sudah mene¬ 
rima pembelajaran terkait dengan materi tes. Tes potensi akademik, misalnya, bukanlah tes 
hasil belajar, yang berarti tidak diperlukan proses pembelajaran, ketika seseorang akan me¬ 
nempuh tes potensi akademik. 
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3. 


5. 


6. 


7. 


Psychological and educational construct can ke measured. Cronbach 
(Reynolds. Livingston. dan William (2010: 10) mengemukakan ada- 
aium terkenal yang sering dikutip oleh para penganut pengukuran, yaitu 
"lf a rliing e\ists. it e.yists i r. some amount If it v.u m in some amount. n 
can be measured 1 ". Jadi, kalau konstruks itu ada. maka konstruks itu 
dapat diukur. 

Although we can measure construct, our measurement is nol perfect. 
Asumsi ini mengatakan bahwa walaupun konstruks dapat diukur, tetapi 
tidak pernah ada pengukuran yang sempurna (proses dan produknya). 
Oleh karena itu, diasumsikan bahwa ada error (kesalahan) pengukuran, 
walaupun munakin kecil Dengan asumsi inilah, para ahli terus menerus 
berusaha mengembangkan teori dan prakMs pengukuran untuk 
memperkecil kesalahan pc n l' ukuran. 

The re u re differeni ncv. /*• tmosure any ynen consmia. Asumsi ini 
menjalakan bahwa Miaiu konsiruks tertentu dapat diukur melalui ber- 
baaai macam cara, vang masing-masing cara mempunyai karakteristik 
sendiri-sendiri. Tes prestasi belajar, misalnya, dapat diukur dengan tes 
uraian dan dapat diukur pula dengan tes pilihan ganda, masing-masing 
cara mempunyai keunggulan dan kelemahannya sendin-sendm. 

All assessment procedures have strengths and limitations. Walaupun 
suatu konstruks dapat diukur dengan berbagai macam cara, masing- 
masing cara itu mempunyai keunggulan dan kelemahan sendiri-sendiri. 
Ini berarti tidak ada suatu cara yang selalu baik untuk berbagai keadaan 
dan situasi 5 . 

Multiple sources of infonnation should be part of assessment process. 
Asumsi ini mengatakan bahwa untuk menilai seseorang, harus diguna¬ 
kan berbagai sumber informasi. Ini akibat asumsi kelima yang 
mengatakan tidak ada satupun prosedur penilaian yang sempurna. 
Performance on tests can be generalized to nontest behaviors. Dia¬ 
sumsikan bahwa segala sesuatu yang ada pada tes, misalnya cara 
pengembangannya, dapat dialihkan ke non-tes. Berdasar asumsi milah 


* Menurut Cronbach, jika sesuai» im dibicarakan prang. beram sesuai» itu ada. Jlka 

itu ada. maka sesuatu itu bisa diukur. M.salnya. orang sering membicarakan cinli Maumu 

Cronbach, pasti keberadaan cinta .... dapat diukur. Kalaupun sampai sekarang. 

dapat mengukur cinta, misalnya, i,u bukan berarti bahwa cinta tidak bl ^\ J “ u JrS?Ls 

adalah belum dapat dibuat ala, ukurnya. Oleh karena „u !ah para Prolog bmama 

menerus untuk menciptakan alat ukur mengenai sesuatu, walaupun oleh sebagia g 

^’wal^u^u^dfaku^b^wa'TeT uraian lebih unggul dibandingkan dengan tes pilihan ganda 
dala n mengorganisir jawaban, tetap. Ujian Nasional, T1MSS. P1SA. PIRLS, dan semacam¬ 
nya Tkan sela u menggunakan tes pilihan ganda, karea jenis itulah yang paling cocok un.uk 
Tl Ikukan Sngujian pada skala besar. Penganjur agar Ujian Nasional menggunakan les 
uraian tidakhdAijak, karena Ujian Nasional adalah ujian skala besar yang hanis segera 
diumumkan hasilnya. 
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para ahii mengembangkan non-tes berdasarkan cara-cara >ang dilakukan 
ketika para ahli tersebut mengembangkan tes. 

8. Assessment can provide infonnation ikal helps educators make better 
educcuional decisions. Penggunaan asesmen dalam pembelajaran diya¬ 
kini dapat membantu pendidik untuk memperbaiki kinerjanya dalam 
proses pembelajaran. Berdasar asumsi ini» para praktisi pengukuran dan 
pengujian selalu berusaha menciptakan asesmen yang dapat membantu 
memperbaiki kualitas proses pembelajaran 6 . 

9. Assessment can be conducted in a fair manner. Diasumsikan bahwa 
penilaian dapat dilakukan dalam keadaan yang adil. Berdasarkan asum¬ 
si ini. para ahli pengukuran dan pengujian terus berusaha untuk mem¬ 
buai suatu prosedur agar pelaksanaan pengukuran dan pengujian ber¬ 
langsung secara adil, tidak merugikan peserta didik yang berasa» dari 
daerah atau etnis tertentu, misalnya. 

10. Itsiinv and assessment can bencjit our educationul instimuan v and 
soi iet\ as a whole. Pada akhirnya, diasumsikan bahwa apa yang dilaku¬ 
kan oleh para ahli dan praktisi pengukuran dan pengujian diyakini akan 
berdampak positif terhadap lembaga-lembaga pendidikan dan masya¬ 
rakat pendidikan secara keseluruhan. 

Terkait dengan tugas pendidik (guru dan dosen), Reynolds, Livings- 
ton, dan Willson (2010: 25) mengatakan bahwa pendidik profesional 
haruslah dapat: (1) memilih dengan baik prosedur penilaian yang cocok 
untuk membuat keputusan pembelajaran ( instructional decision ), (2) me¬ 
ngembangkan dengan baik prosedur penilaian yang cocok untuk membuat 
keputusan pembelajaran, (3) melaksanakan penilaian, melakukan pen- 
skoran. dan menginterpretasi secara profesional penilaian yang dibuatnya, 

(4) menggunakan hasil penilaian dalam membuat keputusan pembelajaran, 

(5) mengembangkan prosedur pemberian skor (nilai) yang benar sesuai 
dengan informasi yang diperoleh dari penilaian, (6) mengkomunikasikan 
hasil penilaian kepada pihak-pihak terkait, dan (7) mengetahui dan meng¬ 
hindari tindakan tercela akibat penggunaan prosedur atau informasi penilai¬ 
an yang tidak etis, illegal , dan tidak benar. 

BAHAN DISKUSI 

1. Ada yang menganggap bahwa penilaian dan pembelajaran adalah dua 
hal yang terpisah. Di sisi lain, ada yang mengganggap bahwa seharus¬ 
nya pembelajaran da penilaian adalah dua kegiatan yang menyatu, tidak 
terpisahkan. 


6 Dikenal jenis penilaian yang disebut assessment for learning (penilaian untuk pembela¬ 
jaran) yang tujuan utamanya memberikan balikan kepada peserta didik mengenai kesalahan- 
kesalahan vang diperbuatnya dalam mengerjakan soal-soal penilaian. 
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a. Berilah contoh praksis pembelajaran yang memberikan indikasi 
bahwa pembelajaran dan penilaian adalah dua kegiatan yang 

terpisah. . ... 

b. Berilah contoh praksis pembelajaran yang memberikan indikasi 
bahwa pembelajaran dan penilaian adalah dua kegiatan >ang 
terintegrasi. 

c. Perhatikan RPP (Rencana Pelaksanaan Pembelajaran) yang pernah 
Anda buat. Ketika Anda membuat RPP tersebut, paradigma 
manakah vane Anda pakai, pembejalaran dan penilaian merupakan 
dua kegiatan'yang terpisah atau dua kegiatan yang menyatu. 
Mengapa? 

c. Menurut Anda, manakah yang seharumnya dilakukan oleh pendidik, 
memandang pemhalajaran dan penilaian sebagai dua kegiatan yang 
terpisah atau dua kegiatan yang menyatu ’ Mengapa'? 

d. Menurut Anda, manakah yang lebih meringankan tugas pendidik 
tituru. dosen i. melaksanakan pembelajaran dengan paradigma pem¬ 
belajaran dari penilaian merupakan dua kegiatan yang terpisah atau 
yang mempunya, parad.gma yang mengatakan bahwa pembelajaran 
dan penilaian adalah dua kegiatan yang menyatu? Mengapa? 

e. Menurut Anda, manakah yang lebih menguntungkan peserta didik 
(siswa, mahaasiswa) diberi pembelajaran oleh pendidik yang mem¬ 
punyai paradigma pembelajaran dan penilaian merupakan dua kegi¬ 
atan yang terpisah atau yang mempunyai paradigma bahwa pem¬ 
belajaran'dan penilaian adalah dua dua kegiatan yang menyatu. 
Mengapa? 

2. Termasuk pengukuran fisik atau pengukuran psikologik, pengukuran 

mengenai hal berikut: 

a. tinggi badan t. tingkat kecerdasan 

b. berat badan g. motivasi 

c. jarak tempuh h. kedisiplinan belajar 

d. kecepatan i. ketekunan belajar 

e. percepatan j. penghargaan ( valin-s ; terhadap matematika 


Misalnya seseorang melakukan pengukuran mengenai kesetiaan pacar¬ 
nya terhadap dirinya. Untuk itu, ia bersemedi, menerawang dengan 
kekuatan indera keenamnya, dan ia sampai kepada kesimpulan ba wa 
kesetiaan pacarnya terhadap dirinya hanya 40% saja (atau kesetiaan 
pacarnya hanya bernilai 40 dengan skala 100). Apakah orang tersebut 
melakukan pengukuran mengenai kesetiaan pacarnya berdasar an 
konsep pengukuran yang dibicarakan di buku ini? Mengapa? 


4. 


Misalnya kita percaya bahwa setiap hasil peng 
kesalahan ( error). Misalnya hasil pengukuran 


ukuran selalu memuat 
mengenai 1Q Anda 
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dengan menggunakan alat ukur dan cara tertentu adalah 130. Skor 130 
ini disebut skor tampak (obsened score ), dan dilambangkan dengan X. 
Andaikan IQ Anda sebenarnya adalah 140. Skor 140 ini disebut skor 
sebenarnya (tme score) dan dilambangkan dengan T. Misalnya kesa¬ 
lahan pengukuran (measurement errjor) dilambangkan dengan e . 

a. Menurut Anda, bagaimana hubungan (relasi) antara X, T, dan e? 

b. Pada relasi yang Anda tuliskan, dapatkah e bernilai negatif? Nol? 
Positif? 

c. Pada suatu pengukuran, dapatkah Anda memperoleh skor T (skor 
sebenarnya)? Mengapa? 

5 Misalnya Anda melakukan pengukuran 1Q seratus orang dengan alat 
ukur yang sama. Maka terdapat 100 skor tampak. Xj. X 2 . ... - X]«o.. 

terdapat 100 skor sebenarnya. T,. T 2 .'W terdapat 100 kesalahan 

pengukuran. e x . e 2 . 

a. Menurut Anda, dapatkah semua e bernilai positif? Mengapa? 

b. Menurut Anda, dapatkah semua e bernilai negatif? Mengapa? 

c. Menurut Anda, dapatkah semua e bernilai nol? Mengapa? 

6. Misalnya ada orang yang dapat melakukan pengukuran mengenai tinggi 
badan dan tingkat kecerdasan Anda dengan menggunakan alat ukur dan 
cara tertentu. Misalnya seseorang tersebut mengatakan kepada Anda 
bahwa menurut hasil pengukurannya, tinggi badan Anda adalah sekian 
cm dan tingkat kecerdasan Anda adalah sekian. 

a. Apakah Anda percaya benar hasil pengukuran tinggi badan Anda? 
Mengapa? 

b. Apakah Anda percaya benar hasil pengukuran tingkat kecerdasan 
Anda? Mengapa? 

c. Manakah yang lebih Anda percaya, hasil pengukuran tinggi badan 
Anda atau hasil pengukuran tingkat kecerdasan Anda? Memgapa? 

d. Jika Anda percaya bahwa pada setiap hasil pengukuran selalu 
memuat kesalahan ( error ) pengukuran, manakah yang kira-kira 
lebih besar kesalahan pengukurannya, kesalahan pengukuran pada 
pengukuran tinggi badan atau kesalahan pada pengukuran tingkat 
kecerdasan Anda? Mengapa? 

7. Pada suatu pengukuran, manakah yang lebih disukai, pengukuran de¬ 
ngan kesalahan pengukuran yang kecil atau pengukuran dengan 
kesalahan pengukuran yang besar? Mengapa? 

8. Pada suatu kelas terdapat 32 siswa. Diadakan ujian Matematika pada 
kelas tersebut. Dari skor ujian Matematika tersebut dicari rerata (p) 


Dalam beberapa buku, kesalahan pengukuran dilambangkan dengan E 
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dan deviasi baku-i cr)-nya. Diperoleh u- 60 dan o- 5. Untuk 
memberi nilai siswa tersebut dalam skala lima (yaitu nilai dalam bentuk 
A, B. C. D. dan E) diberlakukan aturan konversi sebagai berikut. 


Rentane Skor (X) ! Niiai dalam Skala Ltmu | 

X > p + L5 g 

A 

p + 0,5cr < X < p + l-5o 

B 

fa - 0,5a < X < p + 0,5o 

C 

i p-1.5a<X<p-0.5a 

D 

i-. . - 

• X < f.i — 1.3G 

E 

L--- -—' 


Jika aturan transformasi skornya seperti itu, penilaian tersebut meng¬ 
gunakan pendekatan PAN atau PA P? Mengapa? 

9. Jika Anda seorang guru, akan menggunakan PAP atau PAN penilaian 
Anda? 

10. Kurikulum Tingkat Satuan Pendidikan (KTSP) menggunakan PAP atau 
PAN? 


1 1. Kurikulum 2013 menggunakan PAP atau PAN? 


12. Menurut Anda, apa kelebihan dan kelemahan penilaian berdasar PAP? 
15. Menurut Anda, apa kelebihan da kelemahan penilaian berdasar PAN ? 


14 Jika skor-skor yang diperoleh berdistribusi normal, aturan translorinasi 
skornya seperti pada soal Nomor 8, berapa persenkah siswa yang 
memperoleh nilai A? Nilai B? Nilai C? Nilai D? Nilai E? 


15 Misalnya skor ujian Matematika dari 32 siswa adalah sebagai berikut. 

76 74 45 65 32 

91 34 36 65 76 

78 45 65 72 87 

95 77 64 80 75 

tersebut Siti mendapat skor 32 dan Amir mendapat skor 80. 

transformasi seperti pada soal Nomor 8 , 


32 

45 

36 

68 

80 

76 

77 

46 

56 

66 

46 

78 

Pada kek 

in tersebut Siti 

Dengan 

menggunakan 

berapakah nilai 

Siti dan 


16 Pada suatu kelas terdapat 32 siswa. Diadakan ujian Matematika pada 
kelas tersebut. Untuk memberi nilai siswa tersebut dalam skala lima 
diberlakukan aturan konversi sebagai berikut. 
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Rentang Skor (X) 

Nilai dalam Skala Lima , 

X > 80 

A 

i f 

70< X < 80 

i B ! 

60< X < 70 , 

; c 

50< X < 60 

D 

X <50 

E 


Jika aturan transformasi skornya seperti itu, penilaian tersebut menggu¬ 
nakan pendekatan PAN atau PAP? Mengapa 0 

17. Jika diberlakukan aturan konversi skor seperti pada Soal Nomor 10. 
berapakah nilai Siti dan Amir pada Soal Nomor !?? 

18. Seorang peneliti melakukan pengukuran mengenai moti\asi 
dengan menggunakan skala Likert. Ada 20 butir yang dipakai untuk 
melakukan pengukuran, masing-masing dengan alternatil jawaban SS 
(sangat setuju), S (setuju), N (netral), TS uidak setujui dan STS t sangat 
tidak setuju). Dari skor motivasi tersebut dicari rerata ( p ) dan deviasi 
baku-(a)-nya. Diperoleh p = 60 dan a= 15. Peneliti mengelompokkan 
motivasi siswa ke dalam tiga kategori, yaitu Tinggi (T), Sedang (S), dan 
Rendah (R). Aturan pengelompokannya adalah sebagai berikut. 


Rentang Skor (X) 

Motivasi Siswa 

X > p. + 0,5a 

Tinggi 

p - 0,5a < X < p + 0,5a 

Sedang 

X < p - 0,5a 

Rendah 


Jika aturan transformasi skornya seperti itu, penilaian tersebut menggu¬ 
nakan pendekatan PAN atau PAP? Mengapa? 

19. Seorang peneliti melakukan pengukuran mengenai motivasi siswa de¬ 
ngan menggunakan skala Likert. Ada 20 butir yang dipakai untuk mela¬ 
kukan pengukuran. Skor minimal yang mungkin adalah 0 dan skor 
maksimum yang mungkin .adalah 100. Peneliti mengelompokkan moti¬ 
vasi siswa ke dalam tiga kategori, yaitu Tinggi (T), Sedang (S), dan 
Rendah (R). Aturan transformasinya adalah sebagai berikut. 


Rentang Skor (X) 

Motivasi Siswa 

X> 75 

Tinggi 

25< X < 75 

Sedang 

X <25 . 

Rendah 


Jika atuian transformasi skornya seperti itu. penilaian tersebut menggu¬ 
nakan pendekatan PAN atau PAP? Mengapa ? 
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20. Jika Anda seorang peneliti, aturan mana yang Anda pilih, seperti pada 
Soal Nomor 18 atau seperti pada Soal Nomor 19? Mengapa 0 

21. Misalnya Anda memilih aturan seperti pada Soal Nomor 18. 

a. Apakah pasti ada siswa dengan kategori motivasi Tinggi 0 Menga¬ 
pa? 

b. Jika distribusi skornya normal, berapa jpeisen siswa yang mempu¬ 
nyai motivasi Tinggi? Sedang? Rendah? 8 

22. Misalnya Anda memilih aturan seperti pada Soal Nomor 19. Apak; '; 
pasti ada siswa dengan kategori motivasi tinggi? Mengapa 0 


Gunakan tabel distribusi normal baku yang ada pada kebanyakan buku-buku statistik 
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BAB II 

TEORI PENCUKURAN 


PENDAHULUAN 

Dewasa ini terdapat dua jenis teori pengukuran, yaitu teori tes klasik 
(classical test theory) dan teori tes modern yang lebih dikenal dengan teori 
respon butir (item response theory). Pada bab ini diperkenalkan secara 
sederhana kedua teori tersebut. 

TEORI TES KLASIK 

Pada teori tes klasik, terdapat 5 asumsi, yaitu sebagai berikut (Allen & 
Yen, 1979: 57). 

1. X = T + e 

2. E(X) = T 

3. PeT = 0 
4 Peje2 

3- Pe]T2 = 0 

Asumsi-asumsi tersebut di atas dapat dinyatakan secara verbal sebagai 
berikut. 


Asumsi Pertama: X = T + e 

Pada model ini, skor yang diperoleh peserta tes, yang d isebut sko r 
a matan ( observed score) X terdiri dari skor sebenarnya (true score) T dan 
k esalahan pengukuran e ( error scorc atau error of measuremen t ), yang 
dihubungkan oleh relasi X = T + e. Pada asumsi ini, yang diperoleh.pada 
pengukuran adalah skor X, sedangkan skor T dan kesalahan e tidak dike- 
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tahui. Misalnya, pada pengukuran IQ. Amir mendapat skor 130, sehingga 
lalu dikatakan bahwa 1Q Amir adalah 130. Skor 130 ini disebut skor tampak. 
Skor yang sesungguhnya (dalam arti IQ Amir yang sesungguhnya) tidak ada 
seorangpun yang tahu Bisa jadi IQ Amir yang se-benarnya adalah 132 atau 
barangkali mungkin IQ Amir hanya 125. Jika IQ yang sebenarnya 132, maka 
kesalahan pengukurannya e = -2, sedangkan jika IQ yang sesungguhnya 
125, maka kesalahan pengukurannya e = 5. 

Ada dua macam kesalahan, yaitu kesalahan acak (random error) dan 
kesalahan sistematik t wstemaiic error). Misalnya seseorang melakukan 
suatu pengukuran terhadap i 00 orang. Berdasarkan teori pengukuran, maka 
terdapat 100 buah X. ion buah T. dan 100 buah e seperti yang tampak pada 
Tabel 2.1. 


laini 2 . i Skor fhmgitkuran terhadap h m orang 


X 

T 

e 

Relasi 

X’ : T> 

i * , » 

e, ; X,=T 1 +e, 

X 2 

T 2 

e 2 

X 2 =T 2 +e 2 

x 3 

t 3 

^3 

X 3 =T 3+ e 3 

x 4 

t 4 

e 4 

X 4 = T 4 -t-e 4 

X 5 

t 5 

«5 

X 5 =T 5 + e 5 


1 - 



x l(X) 

Tioo 

e i00 

X|00 =T 100 +e 100 


Jika semua e adalah positif atau semua e adalah negatif, maka kesala- 
hanya disebut kesalahan sistematik. Pada teori pengukuran, kesalahan 
yang terjadi diasumsikan merupakan kesalahan random (dalam arti ada e 
yang positif, ada e yang nol. dan ada e yang negatif). 


Asumsi Kedua: E(X) = T 

Di statistik matematik dikenai adanya nij.ai har apa n da jj ^sua uuvari- 
abel r^dom^C^ymg di lambangi d engaj^EDO. Nilai harapan jni merupakan 
rerata variabel random X pada populasinya, dan sering dilambangkan 
dengan p= E(X). Asumsi E(X) = T diartikan bahwa jika^h]a!yikail_peng- 
ukuran kepada orang_ vang sam a dilakukan tak J> grhingga __kali, sedangkan 
kemampuan ontng^ tersel^^ 

lainnya, maka ^skor yang sesTi ngguh n ya T dapat dicari 1 

rer ata da n_s kor pcng amat~a ya. 

Implikasi praktis dari asumsi ini adalah bahwa untuk memberikan 
penilaian kepada seorang peserta didik, berilah ujian beberapa kali, mi- 
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salnya 4 kali dalam satu semester, kemudian dicari rerata dari 4 skor yang 
diperoleh. Rerata skor dari keempat skor merupakan skor final peserta didik 
tersebut dan dianggap merupakan skor yang sebenarnya. Semakin banyak 
dilakukan pengukuran, rerata skor tampaknya akan semakin mendekati skor 

>ebenurn\a. 

Asumsi Ketiga p e y = 0 

p adalah lambang koefisien korelasi. Asumsi ketiga mengatakan 
bahwa pada sejumlah pengukuran, tidak ada korelasi antara kesalahan skor 
dan skor sebenarnya. Artinya, jika diperoleh skor sebenarnya T yang tinggi, 
kesalahan skornya e tidak harus tinggi dan sebaliknya jika diperolah skor 
sebenarmu T yang rendah, kesalahan skornya e tidak harus rendah. Pada 
konteks 'Fabel 2.1. maka diasumsikan tidak ada korelasi amat a 'kor F dan 
'kor e pada Tabel 2.2. 

Tabel 2.2. Skor T dan c pada 100 Kali Pencukuran 


r 

e 

Tl 

e l 

t 2 

«2 

• t 3 

e 3 

t 4 

e 4 

t 5 

e 5 



T I00 

e 100 


Asumsi Keempat p e je2 = 0 

Misalnya dilakukan pengukuran kepada 100 orang dengan meng¬ 
gunakan dua tes yaitu Tes A dan Tes B. Masing-masing tes menghasilkan 
skor tampak, skor sebenarnya, dan kesalahannya masing-masing. Misalnya 
hasil pengukuran pada Tes A (tes pertama) dan pada Tes B «tes kedua) 
tampak pada Tabel 2.3. 

Asumsi keempat mengatakan bahwa tidak ada korelasi antara ej dan 
e2 • Artinya jika kesalahan pengukuran pertama pada Tes A tinggi, kesa¬ 
lahan pengukuran pertama pada Tes B tidak harus tinggi: sebaliknya jika* 
kesalahan pengukuran pertama pada Tes A rendah, kesalahan pengukuran 
pertama pada tes B tidak harus rendah. Demikian pula untuk kesalahan 
kedua, kesalahan ketiga, dan seterusnya. 
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Tabel 2.3. Skor Pengukuran terhadap J00 Orang 
dengan Menggunakan Tes A dan Tes B 


j Hasil Pengukuran pada Tes 
Pertama (Tes A) 

Hasil Pengukuran pada Tes 

Kedua (Tes B) 

i x ‘ 1 

T, n 


Xi 

t 2 

e 2 

i x i 1 

T. i 

e I 1 

X| 2 

Tl2 

e I2 

Kr 

T 2 | 

e 21 

X 22 

t 22 

e 22 

X?i 


e 31 

x 32 

T 32 

e^ 2 

X 4I 

t 4I 

e 41 

X 42 

t 42 

e 42 

1 -— 

i x 5 , 

T 51 

e 51 

; x 5: 

t 32 

e 5)2 i 

r -i---- 

... 


! 

| i 

; X|00| 

T I0<)! 

e l001 


! t I002 

1 e ioo: , 


Asumsi Kelima: p e jX 2 

Misalnya dilakukan pengukuran kepada 100 orang dengan 
menggunakan dua tes yaitu Tes A dan Tes B. Seperti disebutkan di muka, 
masing-masing tes menghasilkan skor tampak, skor sebenarnya, dan 
kesalahannya masing-masing. Misalnya hasil pengukuran pada Tes A (tes 
pertama) dan pada Tes B (tes kedua) tampak pada Tabel 2.3. 

Asumsi kelima mengatakan bahwa tidak ada korelasi antara ej dan 
T 2 . Artinya jika kesalahan pengukuran pertama pada tes pertama tinggi, 
skor sebenarnya yang pertama pada tes kedua tidak harus tinggi. Sebalik¬ 
nya, jika kesalahan pengukuran pertama pada tes pertama rendah, skor se¬ 
benarnya yang pertama pada tes kedua tidak harus rendah, 

Kecuali kelima asumsi tersebut, didefinisikan adanya dua tes paralel 
(parallel test ) dan dua tes ekuivalen- t ( essentially x -equivallent tests) 
sebagai berikut (Allen & Yen, 1979: 57). 

Dua Tes Paralel 

Jika dua tes (yaitu tes pertama dan tes kedua) mempunyai skor tampak X 
dan X’ yang memenuhi asumsi 1 s.d 5. dan jika untuk setiap populasi 

peserta tes berlaku T = T’ dan =cr\. maka dua tes tersebut disebut tes 

paralel 

Jika misalnya terdapat dua tes yaitu tes A dan tes B, Misalnya kedua 
tes tersebut dikenakan kepada 100 orang Misalnya skor pengukurannya 
tampak pada Tabel 2.3. Jika misalnya T,j -Tj 2 untuk setiap i = k 2. ... , 
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100 dan a 2 = a 2 ^ . maka kedua tes disebut dua tes paralel. Dalam konteks 

ini. Tes B adalah paralelnya tes A, dan sebaliknya Tes A adalah paralelnya 

tes B. 

Untuk selanjutnya diperjanjikan penggunaan notasi X’ yang menya¬ 
takan paralelnya tes X. Jadi diperjanjikan tes X’ adalah paralelnya tes X 
dan tes X adalah paralelnya tes X’. Konsep mengenai dua tes paralel men¬ 
jadi sangat penting, terutama untuk mendefinisikan koefisien reliabilitas. 
Didefinisikan koefisien reliabilitas tes X adalah koefisien korelasi antara 
skor tampak tes X dan skor tampak tes X’, dan dilambangkan dengan p\X' • 
Pada sampel, koefisien reliabilitas . dilambangkan dengan rxx’- Untuk 
efisiensi, kadang koefisien reliabilitas pada sampel dilambangkan dengan 

>1 I • 


Dua Tes Ekuivalen- T 

Jika dua tes mempunyai skor tampak Xj dan X : yang memenuhi asumsi 1 
s.d. 5, dan jika untuk setiap populasi peserta tes berlaku Tj=T 2 +k 
dengan k konstanta, maka dua tes tersebut disebut tes t -ekuivalen 

Teorema-teorema pada Teori Pengkuran Klasik 

Berdasarkan asumsi-asumsi 1 s.d. 5 di atas, dapat diturunkan sejumlah 
teorema. Allen & Yen (1979: 61-65) menurunkan 18 teorema dari kelima 
asumsi di muka. Namun pada buku ini dibahas beberapa saja yang penting. 

Teorema 1 

E(e) = 0 

Teorema ini mengatakan bahwa jika kepada seseorang diberikan tes yang 
sama berulang-ulang, maka rerata kesalahan yang diperoleh adalah nol. 

Bukti: 

X = T + e asumsi 1 

E(X) = E(T + e; asumsi i 

E(X) = E(T) + E(e) sifat nilai harapan 

E(X) = T + E(e) . sebab T suatu konstanta 

T = T + E(e) asumsi 2 

E(e) = 0 terbukti 
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Teorema 2 

2 2 2 2.1 

°X “ a T Ge 

Teorema mi mengatakan bahwa pada pengukuran kepada sejumlah orang 
(atau pensukuran kepada orang yang sama sebanyak n kali), ntaka variansi 
skor amatan sama dengan variansi skor sebenarnya ditambah dengan 
variansi kesalahannya. Untuk selanjutnya didefinisikan a e sebagai kesa¬ 
lahan baku pengukuran (the Standard of error measurement). 


Bukti: 

X=T + e 

"X ~ "Ttc- 
*> 

G\ - <~>y To e -2aTe 

'v •> 1 

CJ ^ ~ Oy "T" CJ +0 

i i 2 
a X “ a T +a e 

Berdasarkan Persamaan 2.1 
berikut. 


asumsi 1 
asumsi 1 

sitai vatiansi 

asumsi 2 (ingat p Tc = ) 

terbukti 

pada Teorema 2, diperoleh hubungan 


99 2 2 

C7y <0^ dan a e - a x 


2.2 


Teorema 3 

a | = ax- (X dan X’ adalah skor amatan dari dua tes paralel) 

Teorema 3 menyatakan bahwa jika dua tes yang paralel dikenakan pada 
sekelompok orang, maka dua tes tersebut menghasilkan skor amatan yang 
sama pada masing-masing orang. 

Bukti: 

rr 2 . = nl +rr? Teorema 2 


o T +a e , 


\X’ 


definisi tes paralel 

Teorema 2 
(terbukti) 


Teorema 4 

2 

Oy 

PXX' =" 


2.3 
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Teorema 4 menyatakan bahwa koefisien korelasi antara skor amatan X dan 
skor amatan X’ adalah rasio antara variansi skor sebenarnya terhadap 
variansi skor amatannya. 


Bukti: 


PXX' 


_XX— definisi kuetisien korelasi 

CT X a X’ 

a (T4-E)(T+E2 asumsi 1. teorema 3 

^X^X 

^TT^TE+gET.tg EE. sifat kowuiansi 

'i 



i 

a x 


asumsi 3. 4. dan 5 


terbukti 


Seperti disebutkan di depan, Pxx' merupakan koefisien reliabi 1 itas 
tes X atau koefisien reliabilitas tes X’. Dengan memperhatikan bahwa 
2 

pXX' = —— , variansi tidak pernah negatif, dan Oj < , maka dapat 

°x 

disimpulkan bahwa 0<PXX' — Im berarti bahwa secara teoretis, tentang 
koefisien reliabilitas adalah antara 0 dan 1. Jika tes X memunyai pxX’ = ^ 
maka tes tersebut merupakan tes yang yang sama sekali tidak reliabel, 
sedangkan jika tes X mempunyai PxX’ = 1 niaka tes tersebut merupakan 
tes yang reliabel sempurna. 

Perlu diketahui bahwa pada kenyataannya, koefisien reliabitas suatu 

2 

o T 

tes tidak dapat dihitung dengan menggunakan rumus pxx , = ~~^r' karena 

°X 

pada suatu pengukuran, tidak pernah diperoleh skor sebenarnya (T j. \ ang 
diperoleh adalah skor tampak (X). Oleh karena itu, para pakar memper- 


1 Ini berarti kalau ada orang yang mengestimasi koefisien reliabilitas suatu instrumen dan 
diperoleh koefisien reliabilitasnya negatif atau lebih dan satu, maka perlu dieek ulang cara 
menghitungnya, karena secara teoretis koefisien reliabilitas tidak pernah negatii dan udak 
pernah lebih dari satu. 
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kenalkan rumus-rumus untuk mengestimasi koefisien reliabilitas. Misalnya 
Kuder dan Richardson memperkenalkan rumus KR-20 dan K.R-21 dan 
Cronbach memperkenalkan rumus alpha. Di luar rumus itu r masih banyak 
rumus yang diperkenalkan oleh para pakar pengukuran untuk mengestimasi 
koefisien reliabilitas. 


Teorema 5 


P XX 


= I 


*e 2 


2.4 


Formula ini adalah bentuk lain dari formula koefisien reliabilitas te-. X. 

Bukti: 


PXX' 



= 1 - 


9 

a e 



icoema 4 


Teorema 2 


Tampak bahwa rumus pada Persamaan 2.4 adalah turunan langsung 
dari Persamaan 2.3. 


lCUICIlldU v — VV 

Jika X adalah jumlah skor dari N tes paralel Yi demikian hingga X — 2- * 
maka = N 2 g^ 

Pada kasus ini diasumsikan terdapat N tes paralel Y,.Y : .Y;. - Y N dan 
ke-N tes tersebut digabung menjadi satu tes X, yang dilambangkan dengan 
X = £Y, maka variansi skor sebenarnya dari tes X sama dengan N~ kali 
variansi tes Y. 

Bukti 

(diserahkan kepada pembaca) 


2 Disebut rumus KR-20 karena rumus itu merupakan publikasi Kuder dan Richard-son yang 
ke-20, sedangkan KR-21 adalah publikasi mereka berdua yang ke-21 
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Teorema 7 

p v v = -— — - (rumus Spearman-Browm 2.5 

paa i-t^N-Dpyy' 

Bukti: 

(diserahkan kepada pembaca) 

Rumus pada Persamaan 2.5 menunjukkan bahwa semakin panjang 
suatu tes. maka tes tersebut semakin reliabel. Pembaca dapat mencoba 
mensubstikan berbagai nilai N pada Persamaan 2.5 dan akan mendapatkan 
kenyataan bahwa semakin panjang suatu tes. maka akan semakin tinggi 
koefisien re 1 i a bi 1 i t a s n ya. 

Contoh 2.1 

Suatu tes dengan panjang 30 butir mempunyai koetisien reliabilitas 0.60. 
Jika tes tersebut diperpanjang menjadi 40 butir, berapa koetisien reiiabilitas 
tes yang baru? 

Jawab: 

N= f = U3: Pyy ,= 0,60; p X x =? 

NpYY' (1.33X0.60) = 0,798 =()67 

PXX l+(N-l)pYY’ l+( 1,33-1)(0,60) 1,198 

Jadi, koefisien reliabilitas tes yanng baru adalah 0,67 

Teorema 8 

Jika pyy* * 0, maka lim pxx’ = 1 

N->oo 

Bukti: 

(diserahkan kepada pembaca) 

Teorema 8 menyatakan bahwa walaupun kalau tes diperpanjang koe¬ 
fisien rel i ab i 1 i t as n y a meningkat, namun koefisien reliabilitas suatu tes tidak 
akan melebihi satu walaupun tes tersebut diperpanjang terus menerus. Hal 
ini sekaligus merupakan bukti bahwa nilai maksimum koefisien reliabilitas 
adalah 1. 

TEORI RESPONS BUTIR 

Menurut Dali S. Naga (1992: 4) t pada pengukuran berdasar teori tes 
klasik* tes yang sama yang dijawab oleh kelompok peserta tes yang sama 
menghasilkan karakteristik yang sama pula, tetapi jika kelompok butir soal 
yang sama dijawab oleh kelompok peserta yang berbeda menghasilkan 
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karakteristik \j.ng berbeda. Dengan kata lain, karakteristik butir soal 
dipengaruhi oleh peserta tes yang menempuh tes tersebut. Di sisi lain, jika 
kelompok peserta >ang sama menempuh tes yang berbeda, maka ci>' 
kelompok pe>ertu i t u nada umumnya berubah. Ini berarti, ciri-ciri keiom 
pok peserta tes berubah jika mereka menempuh tes yang berbeda. 

Untuk mengatasi kelemahan-kelemahan yang ada pada teori i< * 
klasik, para ahli pengukuran berusaha mencari model alternatif. Mod 1 
yang diinginkan harus mempunyai sifat-sifat: (1) karakteristik butir soH 
tidak tergantung kepada kelompok peserta tes yang dikenai butir soal 
tersebut. (2) skor \ang menyatakan kemampuan peserta tes tidak tergantung 
kepada tes. i 3» mode! dimalukan dalam tingkatan f level) butir soal, tidak 
dalam tingkatan :: ■ 1 mode! tidak memerlukan te> paralel untuk meng¬ 

hitung koefisien rck.dan O) model menyediakan ukuran yang tepat 
untuk setiappkor kemampuan «Hambleton. Swammathan. & Rogers. loop 
5). Model alternatif>ang dapat mempunyai ciri-ciri itu adalah model peng- 
ukuran yang disebut teori respons butir (ireni responsi * rheory). 

Model pengukuran pada teori respons butir berdasarkan dua postulat, 
yaitu: (1) kinerja peserta tes pada suatu butir soal dapat diprediksi oleh 
sekumpulan .faktor yang disebut traits atau kemampuan ( abilities), dan (2) 
hubungan antara kinerja peserta tes pada suatu butir soal dan sekumpulan 
traiis dapat digambarkan dalam sebuah fungsi monoton naik yang disebut 
fungsi karakteristik butir (item characteristic junciion) atau kurva karak 
teristik butir ( ireni churateristic cui’ve) (Hambleton, Swammathan, & 
Rogers, 1991: 7). Fungsi karakteristik butir ini menyatakan bahwa semakin 
meningkat level kemampuan seseorang, semakin meningkat pula peluang 
nya menjawab benar suatu butir tertentu. Namun demikian, peningkatan 
level kemampuan seseorang tidak berbanding lurus dengan peluangnya 
menjawab benar suatu butir tertentu. 

Asumsi-asumsi pada Teori Respons Butir 

Ada tiga asumsi dasar yang mendasari teori pengukuran berdasar 
teori repons butir, yaitu: (11 unidimensionalitas. (2) independensi lokal, dan 
(3) fungsi karakteristik butir menyatakan hubungan yang sebenarnya antapa 
variabel yang tak terobservasi (yaitu kemampuan) dengan variabel ter¬ 
observasi (yaitu respons butir) (Hambleton. Swaminathan. & Rogers. 1991: 
9; Sumadi Suryabrata. 2000: 28). Asumsi unidimensionalitas dan indepen¬ 
densi lokal dapat dijelaskan sebagai berikut. 

Asumsi unidimensionalitas menyatakan bahwa hanya satu kemam¬ 
puan yang diukur oleh sekumpulan butir-butir soal dalam suatu tes. Asumsi 
ini pada praktik sukar dipenuhi, sebab terdapat banyak faktor yang dapat 
mempengaruhi hasil suatu tes. Faktor-faktor tersebut antara lain tingkat 
motivasi, kecemasan, kemampuan untuk bekerja cepat, dan keterampilan 
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kognitif lain di luar kemampuan yang diukur oleh sekumpulan butir soa 
dalam suatu tes. Hal yang dimaksud dengan unidimensionalitas dalani ha 
ini adalah adanya faktor dominan yang mempengaruhi hasil suatu tes. Fa 
tor dominan itulah yang disebut kemampuan yang diukur oleh suatu tes. 

Asumsi independensi lokal menyatakan bahwa jika kemampuan y a n£ 
mem-pengaruhi suatu tes adalah konstan, maka respons peserta tes pada 
setiap pasangan butir soal adalah independen secara statistik. Dengan kata 
lain, asumsi independensi lokal menyatakan bahwa tidak ada korelasi antara 
respons peserta tes pada butir soal yang berbeda. Hal ini juga berarti bahwa 
kemampuan yang dinyatakan dalam model adalah satu-satunya faktor yang 
mempengaruhi respons peserta tes pada butir-butir soal. 


Model-model pada Teori Respons Butir L’nidimensional 

Ada tiga model yang populer pada teori respons butir, yang cocok 
untuk tes dikhotomous «termasuk tes pilihan ganda), yang disebut model 
logistik satu parameter, model logistik dua parametei. dan model logisti 
tiga parameter. . 


Model Logistik Satu Parameter 

Model logistik satu parameter sering disebut juga dengan model 
Rasch, sebagai penghargaan kepada penemunya. Fungsi karakteristik butir 
untuk model logistik satu parameter ditentukan dengan persamaan 
(Hambleton, Swaminathan, & Rogers, 1991: 12): 

(0-bj) 

Pj(0) = -—; i = 1,2,3,...» n 2.6 


1 + e 


(0-bi) 


dengan 

p i (0)= peluang seseorang dengan kemampuan 0 menjawab butir soal ke-i 
dengan benar 

bj = parameter tingkat kesulitan untuk butir soal ke-i 

n = banyaknya butir soal dalam tes 

c = bilangan pokok logaritma natural, yang nilainya adalah 2,718, Jika 
dibulatkan ke tiga angka di belakang koma 

Parameter tingkat kesulitan, yaitu b, untuk sebuah butir soal adalah 
titik pada skala kemampuan, yang pada titik itu peluang menjawab benar 
butir tersebut sebesar 0,5 3 (Hambleton, Swaminathan, & Rogers, 1991: 13). 


; Perhatikanlah bahwa pendefinisian tingkat kesulitan butir pada Teori Respons Butir ini 
berbeda dengan pendefinisian tingkat kesulitan butir pada Teori Tes Klasik. Seperti diketahui, 
pada teori tes klasik, tingkat kesulitan suatu butir adalah proporsi peserta tes yang menjawab 
benar butir tersebut dengan banyaknya keseluruhan peserta tes. 
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Jika kemampuan (0) ditransformasikan demikian hingga mempunyai rerata 
( mean ) 0 dan simpangan baku 1. maka nilai b biasanya berkisar antara -2 
sampai dengan 2 (Hambleton. Swaminathan, & Rogers, 1991: 13). Butir 
soal yang tingkat kesulitannya mendekati -2 merupakan butir soal yang 
saneat mudah dan butir soal yang tingkat kesulitannya mendekati 2 meru¬ 
pakan butir soal yang sangat sukar. 


P<0) 



Tingkat Kesulitan yang Berbeda 

Pada Gambar 2.1, peserta tes dengan kemampuan 0 = -2 mem¬ 
punyai peluang sebesar 0,5 untuk menjawab benar butir soal nomor 1, 
peserta tes dengan kemampuan 0 = 0 mempunyai peluang sebesar 0,5 un¬ 
tuk menjawab benar butir soal nomor 2, dan peserta tes dengan kemampuan 
0 = 2 mempunyai peluang sebesar 0,5 untuk menjawab benar butir soal 
nomor 3. Dengan demikian, pada Gambar 2.1, butir soal nomor 1 mempu¬ 
nyai tingkat kesulitan sebesar b = -2, butir soal nomor 2 mempunyai 
tingkat kesulitan b = 0, dan butir soal nomor 3 mempunya: tingkat kesulitan 
b = 2. Perhatikan bahwa kurva-kurva tersebut berbeda hanya pada letaknya 
saja. Kurva-kurva tersebut saling sejajar. Ini berarti hanya tingkat kesulitan 
butir saja yang mempengaruhi kinerja peserta tes. Pada model logisti satu 
paramer, daya pembeda masing-masing butir sama dan tidak ada unsur 
tebakan dalam menjawab butir soal. 

Perhatikanlah bahwa kurva karakteristik butir Pada Gambai 2.1 
berbentuk seperti huruf S, tidak berbenttik garis lurus. Asumsi yang melan¬ 
dasinya adalah bahwa hubungan antara kemampuan peserta tes dengan 
peluangnya menjawab benar butir tes tersebut fidak berbanding luius. 
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Asumsi lain yang perlu diperhatikan bahwa Pada Gambar 2. L 
kurvanya mempunyai asimtot di P = 1 dan P = 0. Ini berarti semakin pandai 
seseorang, maka semakin tinggi peluangnya menjawab benar suatu butir 
soal. Namun demikian, betapapun pandai seseorang, peluangnya menjawab 
benar butir tersebut tidak akan pernah sama dengan satu. Ini berani, pada 
Teori Respons Butir, pada skala seratus, tidak ada seseorang yang menda¬ 
pat nilai seratus. Sebaliknya, semakin bodoh seseorang, semakin kecil pelu¬ 
angnya menjawab benar suatu butir. Namun demikian, betapapun bodoh 
seseorang, peluang seseorang menjawab benar suatu butir tidak akan 
pernah nol. Ini berarti, pada Teori Respons Butir, tidak ada seseorang yang 
mendapat nilai 0. Hal ini berbeda dengan penskoran pada Teori Tes Klasik 
yang memungkinkan seseorang untuk mendapatkan nilai 0 atau men¬ 
dapatkan nilai 100. 

Grafik pada Gambar 2.1 menunjukkan bahwa kurvanya kontinu. Im 
berarti pada Teori Respons Butir, skor-skor peserta tes bersifat kontinu. Di 
sisi lairi, pada Teori Tes Klasik, skor-skor peserta te> ber>itat deskrit. Pada 
Teori Tes Klasik, jika terdapat 20 butir soal, maka nilai peserta tes adalah 0. 
5, 10, ... , 90, 95, 100 yang bersifat deskrit. 

Pada Teori Respons Butir, parameter bj diestimasi berdasarkan 
data empirik sebaran peserta tes dengan cara estimasi tertentu, misalnya 
dengan mcvcsimum likelihood. Ini hanya bisa dikerjakan oleh suatu program 
komputer tertentu, misalnya program komputer Bilog. Faktor inilah yang 
membuat Teori Respons Butir tidak mudah diimplementasikan. 

Penskoran pada Teori Respons Butir dilakukan dengan memper¬ 
hatikan sebaran jawaban peserta tes di mana tingkat kesulitan butir diper¬ 
hatikan. Artinya, misalnya Amir menjawab benar 4 butir soal, yaitu butir 
soal nomor 1,2 3, dan 4. Di sisi lain, Parti menjawab 4 butir soal, tetapi 
pada nomor lain, misalnya pada butir soal nomor 5, 6, 7, dan 8. Maka skor 
yang diperoleh Amir berbeda dengan skor yang diperoleh Parti, walaupun 
mereka sama-sama menjawab 4 butir soal, karena tingkat kesulitan ke-de¬ 
lapan soal itu tidaklah sama. Ini berbeda dengan penskoran pada Teori Tes 
Klasik, di mana penskoran tidak memperhatikan tingkat kesulitan masing- 
masing butir, semua butir dianggap mempunyai tingkat kesulitan yang 
sama. Yang berarti bahwa pada Teori Tes Klasiik, skor Amir dan skor Parti 
sama, karena mereka menjawab benar sama-sama 4 butir. 


2) Model Logistik Dua Parameter 

Pada tahun 1952. Lord mengembangkan model respons butir dua 
parameter dengan mendasarkan pada ogive distribusi normal. Lord dipan¬ 
dang sebagai orang pertama yang mengembangkan model respons butir dua 
parameter (Hambleton, Swaminathan, & Rogers, 1991: 14). Kemudian, 
pada tahun 1968, Birnbaum mengembangkannya menjadi model logistik 



■Budlyonv, pe^^ar Peyula^HaUlSei^ar 


dua parameter dengan 
Rogers. 1991: 15): 

P,(0) = 


persamaan berikut (Hambleton. Swaminathan. & 

Daj (9-b,) 

e _ _;i= 1,2, 3,....n 2.7 

l + e Da ' (0 ” bi> 


P 7e) = peluang seseorang dengan kemampuan 0 menjawab butir soal ke-i 
dengan benar; 

a j = parameter daya pembeda untuk butir soal ke-i 
b, = parameter tingkat kesulitan untuk butir soal ke-i 


n — himvaknva butir soul dulum 7 is iitn 

I/SU» pob* top*»» »-* I*» -*-»• «*** j 

dibulatkan ke tiga angka di belakang k ^" la ilu sim panttan baku 

D = ,aktor skala, yang nilainya diambil sebesar 1,7, ya. u s.mja _ 
distribusi logistik yang paling mendekati distribusi norma . 


P(0) 



4 Perhatikan bahwa definisi daya Kllsik, daya pembeda 

ngan definisi daya pembeda pa a n • kelompok atas yang menjawab benar 

butir soal didefinisikan sebagai se isi an ara - a b benar butir tersebut, 

butir tersebut dengan proporsi kelompok bawah yang menjaw 





29 


Bab II. Teori/ Pen^ikura^v 


butir soal yang mempunyai daya pembeda yang kecil, mempunyai kurva 
yang sangat landai. Secara teoretis, daya pembeda dapat mempunyai nilai 
mulai dari -x> sampai dengan rx. Namun demikian, untuk butir soal 
yang baik, nilai parameter a harus terletak antara 0 dan 2 (Hambleton. 
Swaminathan, & Rogerb, 1991: 15;. .. 

Dua butir soal pada Gambar 2.2 mempunyai tingkat kesulitan yang 
sama, namun mempunyai daya pembeda yang berbeda. Daya pembeda 
untuk butir soal nomor 1 lebih besar daripada daya pembeda untuk butir 
soal nomor 2. Berbeda dengan kurva-kurva pada model logistik satu 
parameter, kurva-kurva pada model logistik dua parameter tidak saling 
sejajar. Persamaan fungsi karakteristik butir pada persamaan (2). dapat 
ditulis dalam bentuk lain sebagai beriku*: 


Pj (0) 


l+e" Da ' (0 b ‘ 


Persamaan 2.5 diperoleh dari Persamaan 2.7 dengan mengalikan pembilang 
dan penyebut ruas kanan Persamaan 2.7 dengan e ) • 


3) Model Logistik Tiga Parameter 

Persamaan fungsi karakteristik butir untuk model logistik tiga 
parameter adalah sebagai berikut: 

Dai (0-bj) 

p i (0) = c i +n " c - ) 1+e Da, l ei -^7 ;i=L2 ’ 2 ’, 29 

dengan . , 7:' 

Pj(0)= peluang seseorang dengan kemampuan 0 menjawab butir soal ke-i 
dengan benar 


a 


= parameter daya pembeda untuk butir soal ke-i 


bj = parameter tingkat kesulitan untuk butir soal ke-i 

Cj = parameter tebakan ( pseudo-guessing ) untuk butm soal ke-i 

n = banyaknya butir soal dalam tes 
e dan D sama seperti pada model logistik dua parameter 


Model logistik tiga parameter memperbolehkan adanya asimtot 
bawah yang tidak nol, yang berarti model ini mengijinkan adanya faktor 
tebakan, seperti yang teijadi pada tes pilihan ganda. Dua butir soal pada 
Gambar 2.3 mempunyai daya pembeda yang sama namun mempunyai 
unsur tebakan yang berbeda. Butir soal nomor 1 mempunyai faktor tebakan 
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yang lebih besar (c = 0.1) dibandingkan faktor tebakan pada butir soal 
nomor 2 (c = 0). Persamaan (4) dapat ditulis sebagai berikut: 


P, (0) 


l 


c, + • 


1 -f e 


-Du j (0—bj 


: i - !.. 


2.10 


Persamaan 2.10 diperoleh dari Persaman 2.9 dengan mengalikan 

pembilang dan penyebut suku kedua ruas kanan persamaan 2.9 

, -Da; (0-bj) 

dengan e 1 1 • 


P(0) 



Gambar 2. 3. Kurva Karakteristik Butir yang 
Mempunyai Daya Pembeda Sama, tetapi Mempunyai 
Faktor Tebakan Berbeda 


PERBANDINGAN TEORI TES KLASIK DAN TEORI RESPONS 
BUTIR 

Teori tes klasik memuat berbagai keunggulan dan kelemahan. Keung¬ 
gulan teori tes klasik, antara lain: (a) menggunakan konsep yang sederhana 
untuk menentukan kemampuan peserta tes, (b) menggunakan konsep yang 
sederhana dalam menghitung koefisien validitas dan reliabilitas tes serta 
menghitung nilai parameter butir soal, (c) dapat digunakan pada sampel 
kecil, misalnya pada tingkat kelas, (d) sudah digunakan dalam praksis 
pengukuran dan pengujian dalam kurun waktu yang lama, sehingga telah 
diketahui dan dipahami oleh sebagian besar orang yang berkecimpung atau 
terkait dengan dunia pendidikan dan psikologi. Di sisi lain, seperti telah 
disebutkan di muka, kelemahan teori tes klasik, antara lain, adalah, (a) 
kemampuan peserta tes dinyatakan dalam variabel yang deskrit, dan (b) 
besarnya koefisien validitas dan koefisien reliabilitas suatu tes serta nilai 
parameter suatu butir soal tergantung kepada peserta yang dikenai suatu tes. 
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Karena munculnya teori respons butir dimaksudkan untuk menutup 
kelemahan-kelemahan yang ada pada teori tes klasik, maka keunggulan 
teori respons butir, antara lain, adalah: (a) lebih baik landasan teorinya 
dibandingkan dengan teori tes klasik, (b) kemampuan peserta tes di¬ 
nyatakan dalam variabel yang kontinu, (o tidak diperlukan te> paralel 
untuk menghitung koefisien reliabditas (yang dalam teori respons butir 
disebut fungsi informasi), dan (d) besarnya koefisien reliabilitas suatu tes 
dan nilai parameter suatu butir soal tidak tergantung kepada peserta tes 
yang dikenai suatu tes. Namun demikian, penggunaan teori respons butir 
mengandung sejumlah kelemahan, antara lain, adalah: (a) memerlukan 
sampel besar untuk dapat menghasilkan parameter yang stabil, sehingga 
konsep teori respons butir tidak dapat diterapkan pada tingkat kelas, (b) 
diperlukan Software (program komputer) yang andal untuk dapat melaku¬ 
kan estimasi parameter yang aknrui. dan tc» belum diterima keberadaannya 
oleh sebagian besar orang \ang berkecimpung di dunia pendidikan dan 
psikologi, terutama di Indonesia. Dewasa ini belum banyak Software yang 
dapat digunakan oleh masyarakat untuk mengestimasi parameter butir soal 
berdasarkan teon respons butir. Andaikata sudah ada, belum banyak 
masyarakat yang dapat memakainya. Penolakan sebagian besar masyarakat 
Indonesia terhadap "konversi" nilai UAN yang dilakukan oleh pemerintah 
pada awal tahun duaribuan merupakan bukti bahwa keberadaan teori res¬ 
pons butir belum sepenuhnya dimengerti dan diterima oleh masyarakat 
Indonesia 

BAHAN DISKUSI 

1. Pada suatu ujian, skor yang diberikan kepada siswa dianggap sebagai 
skor tampak (X) atau skor sebenarnya (T)? Mengapa? 

2. Pada suatu universitas, untuk memberikan nilai pada mahasiswa 
diberikan empat kali ujian, yaitu UKD1, UKD2, UKD3. dan UKD4. 
Nilai akhir mahasiswa adalah rerata dari UKD-UKD tersebut. Dari sisi 
teori pengukuran, mengapa tidak cukup dengan menggunakan satu 
UKDsaja, tetapi harus menggunakan 4 UKD? 

3. Dari sisi pengukuran, setujukah Anda kalau Ujian Nasional itu 
hanya diberikan satu kali saja dalam setahun? Alasan apa kira- 
kira yang Pemerintah Republik Indonesia berikan, sehingga Pe¬ 
merintah Republik Indonesia hanya memberikan Ujian Nasional 
satu kali saja dalam setahun? 

4. Pada teori tes klasik, terdapat apa yang disebut dengan true score. Jika 
kita mengukur kemampuan aljabar, apakah true score untuk seorang 
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murid dapat diamati? Jika tidak dapat diamati, bagaimana mendapat¬ 
kan true score murid tersebut? 


5. Pada suatu uiian. tiba-tiba terjadi kebakaran, sehingga para siswa di¬ 
minta seaera menyelesaikan pekerjannya. Walaupun demikian, hasil 
ujian para siswa tetap diskor seperti biasanya. Kesalahan pengukuran 
yang terjadi bersifat acak atau sistematik ? Mengapa? 


Pada suatu ujian, terjadi kecurangan demikian rupa sehingga setiap 
siswa mendapatkan bocoran kunci jawaban. Walaupun demikian, has.! 
ujian para ms\\u tetap diskor seperti biasanya. Kesalahan pengukuran 
yang terjadi bersilat acak atau sistematik? Mengapa? 


t Pada suatu kontes, misuinvu. Indonesia Mencari Bakat, mengapa jun- 
nya tidak hanya satu orang tetapi tiga orang? Setujukah Anda kalau 
jurinya lidak tiga orang, tetapi 1 1 orang 


8. Dengan menggunakan formula PXX’ 



tunjukkan 


bahwa 


O^PXX’ - ! * 


9 Seorang peneliti mengestimasi koefisien reliabilitas tes yang dibuatnya 
deiman menggunakan rumus KR-20. Orang tersebut memperolen 
koefisien reliabilitas tesnya adalah 2,4. Kalau peneliti itu Anda, apa 
yang Anda lakukan? Mengapa? 

10 Seseorang mengestimasi koefisien reliabilitas tes yang dibuatnya 
' dengan menggunakan rumus KR-20 Orang tersebut mempero.cn 

koefisien reliabilitas tesnya adalah -0 4 Kalau seseorang itu Anda.; ;. i 
yang Anda lakukan? Mengapa? 

11. Pada suatu ujian pilihan ganda, biasanya seseorang memperoleh skor ,1 
apabila jawabannva terhadap suatu butir benar dan memperoleh skor J 
apabila jawabannya terhadap butir tersebut salah. Jika misalnya pen- 
skorannya diubah dengan memberikan skor 5 jika jawabannya benui 
dan memberikan skor 1 jika jawabannya salah, setujukah Anda, t c- 
ngapa? 

12. Misalnya terdapat 10 butir soal pilinan ganda. Butir nomor 12, dan 

seterusnya berturut-turut mempunyai tingkat kesulitan 0, , . 
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0,5. 0.5, 0.6, 0.3. 0.5. 0,7, dan 0,5. Cara pcnskoranya adalah sebagai 
berikut. 

10 

Skor = kjPj 

i = i 

dengan k; = 1 jika butir ke-i dijawab benar, kj = 0 jika butir ke-i dija¬ 
wab salah dan Pj adalah tingkat kesulitan butir ke-i. 

a. Parti menjawab benar nomor 1, 5, 6, 1. dan 8. Berapakah skor 
Parti? 

b. Wanti menjawab benar nomor 7, 8. 9. dan 10. Berapakah skoi 
Wanti? 

e. Dibandingkan dengan cara pensekoran ujian pilihan ganda >ung 
biasa dilakukan orang, keunggulan dan kelemahan apa yang terjadi 
pada cara penskoran itu? 

c. Setujukan Anda dengan cara penskoran seperti itu. jika penskoran- 
nya dilakukan ,>ecara manual? Mengapa? 

d Setujukan Anda dengan cara penskoran seperti itu. jika penskoran- 
nya dilakukan dengan komputer, misalnya dengan membuat prog¬ 
ram aplikasi tertentu? Mengapa? 

13. Pertanyaannya seperti pad soal Nomor 12, tetapi rumus penskorannya 
adalah sebagai berikut. 

10 

Skor = ]TiPj dengan P, adalah tingkat kesulitan butir ke-i. 
i=l 

14. Sebuah tes mempunyai koefisien reliabilitas sebesar 0.6 dengan vari¬ 
ansi skor tampak sebesar 25. Berapakah variansi skor sebenarnya dan 
variansi kesalahan skornya? Berapakah kesalahan baku pengukuran¬ 
nya? 

15. Pada suatu pengukuran dengan suatu tes tertentu, variansi skor sebe¬ 
narnya adalah 16 dan variansi skor kesalahannya adalah 4. Berapakah 
koefisien reliabilitasnya? Berapakah kesalahan baku pengukurannya? 

it>. Setujukah Anda kalau ada orang mengatakan bahwa rumus KR-20 ada¬ 
lah rumus untuk menghitung koefisien reliabilitas suatu tes? Me¬ 
ngapa? 

17. Setujukah Anda kalau ada orang mengatakan bahwa rumus KR-20 ada¬ 
lah rumus untuk mengestimasi koefisien reliabilitas suatu tes, bukan 
untuk menghitung koefisien reliabilitas? Mengapa? 
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18 Suatu instrumen vang mempunyai panjang 25 butir mempunyai koe¬ 
fisien reliabilitas 0.60. Jika tes tersebut diperpanjang menjadi jQ butir, 
berapa koeli^ien reliabilitas tes yang baru? 

19. Suatu instrumen yang mempunyai panjang 25 butir mempunyai koe¬ 
fisien reliabilitas 0,60. Berapa butir harus ditambahkan agar instrumen 
tersebut mempunyai koefisien reliablitas sebesar 0,70? 

20. Suatu instrumen yang mempunyai panjang 25 butir mempunyai koe¬ 
fisien reliabilitas 0,90. Berapa butir harus ditambahkan agar instrumen 
tersebut mempunyai koefisien reliablitas sebesar 1,00? 
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BAB III 

TES DAN PERSYARATANNYA 

PENDAHULUAN 

Tes didefinisikan sebagai seperangkat pertanyaan atau tugas yang 
direncanakan untuk memperoleh informasi tentang trait atau atribut 
pendidikan atau atribut psikologik tertentu yang setiap butir pertanyaan 
atau tugas tersebut mempunyai jawaban atau ketentuan yang dianggap 
benar (Asmawi Zainul & NoehI Nasution, 1995: 3). Dengan demikian seti¬ 
ap tes menuntut keharusan adanya respons dari peserta tes yang dapat 
disimpulkan sebagai suatu trait yang dimiliki oleh peserta tes. Respons dari 
peserta tes tersebut harus dapat dikategorikan sebagai respons yang benar 
atau respons yang salah. Jika ada pertanyaan atau tugas yang harus dikerja¬ 
kan oleh seseorang, tetapi tidak ada jawaban atau cara mengerjakan yang 
benar atau salah, maka pertanyaan atau tugas tersebut bukanlah suatu tes. 

Di sisi lain, AERA, APA, dan NCME (1999: 3) mendefinisikan tes 
sebagai “an evaluative device or procedure in which sample of an 
examinee ’s behaviour in a specified domain i s obtained and subseguently 
evaluated and scored u si n g standardized process Berdasarkan definisi 
ini, tes adalah alat atau prosedur evaluatif di mana sampel perilaku peserta 
tes dari domain tertentu diambil dan kemudian dinilai dan diskor meng¬ 
gunakan proses yang baku (standar). Dengan demikian, ketika seseorang 
memberikan tes mengenai kemampuan aljabar, maka sebenarnya seseorang 
tersebut hanya mengambil sampel perilaku (dalam hal ini adalah kemam¬ 
puan mengerjakan aljabar) dari peserta tes. Namun demikian, seperti halnya 
pada statistika inferensial, hasil yang diperoleh pada sampel itu diberla¬ 
kukan secara umum pada populasinya 1 . 


1 Ini berarti jika seorang siswa SMP mendapat nilai 100 pada Ujian Nasional SMP. maka 
harus diartikan bahwa nilai 100 itu diberlakukan pada populasinya, Aitinya, harus diartikan 
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Setelah tes selesai disusun, maka pengembang tes uajib men_uji 
cobakannya terlebih dulu sebelum digunakan sebagai alat untuk melakukan 
penilaian. Tujuan uji coba adalah untuk melihat apakah tes yang disusun 
telah memenuhi persyaratan sebagai tes yang baik atau belum. Analisis 
untuk melihat apakah suatu tes telah memenuhi persyaratan sebagai 
van» baik atau belum disebut analisis tes (atau analisis instrumen). Tes yang 
baik harus valid dan reliabel. Kecuali melakukan analisis instrumen 
pengembang tes juga melakukan analisis butir instrumen. Pada tes prestasi, 
misalnya, analisis butir soal meliputi analisis untuk melihat: ,1) memadai 
atau tidaknya tingkat kesukaran. 12) memadai atau tidaknya daya pembeda, 
dan (3, berfungsi atau tidaknya pengecoh (pada tipe pilihan ganda). 


validitas 

Banyak definisi mengenai validitas tes. Nunnaly < I97X: NO, dan Allen 
dan Yen (1979. 95) mengatakan bahwa suatu tes disebut valid Jika tes 
tersebut mengukur apa yang seharusnya diukur. Ini adalah definisi vahdrtas 
yang banyak digunakan orang. Pada definisi tersebut, istilah validitas 
dikaitkan dengan instrumen, yaitu tes. 

Namun demikian, banyak ahli yang mendefinisikan validitas dalam 
kaitannya dengan skor tes, seperti yang dikatakan oleh Gudfordd 954.398 
bahwa istilah validitas menunjuk kepada sejauh mana skor tes dapa 
memprediksi kriteria yang telah ditentukan. Senada dengan itu - Crmitach 
(1971) seperti yang ditulis oleh Crocker dan Algina (1986.2 ) 

sikan validasi sebagai suatu proses di mana pengembang tes atau pengguna 
tes mengumpulkan bukti-bukti untuk mendukung berbagai jenis inferensi 
yang dapat ditarik dari skor tes. 

Definisi lebih komprehensif dari validitas dikemukakan oleh Messick 
(1989- 13) sebagai berikut: “validity is an integrated evaluanve judgment oj 
the degree to which empirical evidence and theoretical rational support the 
adeqttac\ and appropriateness of inference and actions based on test 
scores or other modes of asscssntent” . Pada s.s. ,am - 

uanai and Psychological Testing AERA, APA, dan NCME <'9W 9) men- 
defmisikan validitas sebagai “the degree to which evidence and the n 
support the interpretation of test score entailed by proposed uses o) tes . 

Berdasar itu dapat dikatakan bahwa validitas adalah penilaian eva¬ 
luatif terintegrasi, yang dilakukan oleh penilai mengenai se rapa jau 
bukti-bukti empirik dan rasional teoritis mendukung ketepatan inferensi 
dan tindakan berdasar skor tes atau asesmen yang lain. 


bahwa siswa tersebut mendapat nilai 100 untuk kemampuannya menguasai matematika SMP, 
tidak sekedar mendapat nilai 100 pada Ujian Nasionalnya saja. 
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Jenis-jenis Validitas 

Konsep teoritik validitas berkembang dari tahun ke tahun, i ada 
mulanya validitas berkenaan dengan prediksi dari kriteria spesifik, seperti 
yang dikatakan oleh Guilford pada tahun 1946 bahwa tes adalah valid un¬ 
tuk sesuatu >ang berkorelasi dengannya. Kemudian, fokus dari \alidita> 
adalah interpretasi dari skor tes. Pergeseran dari prediksi ke eksplanasi se¬ 
bagai fokus dari validitas ini, menyebabkan bahwa penggunaan, rele-vansi. 
dan pentingnya prediksi tidak dapat diukur ketika tidak ada skor yang dapat 
dipakai untuk melakukan prediksi. 

Pada tahun 1954, APA (American Psychological Association me¬ 
nyatakan ada empat jenis validitas, yaitu: validitas isi’, validitas prediktif, 
validitas konkuren, dan validitas konstruks. Kemudian, pada tahun j 966. 
APA mereduksinya menjadi tiga jenis (Messick. 1989:18 k yaitu validitas 
isi u -ontent validityK validitas berdasar kriteria (criterion-reuiuJ ranauvc 
dan validitas konstruk (construct validity). Penggolongan 'ah.hias ke 
beberapa jenis tersebut didasarkan kepada tujuan khusus dan instrumen 
yang dikenakannya. Pada 1966 Standards , dikatakan bahwa validitas isi 
bertujuan untuk menentukan apakah yang ditampakkan secara individual 
dapat pula ditampakkan pada keseluruhan ( universe ) situasi; validitas ber¬ 
dasar kriteria bertujuan untuk memprediksi keadaan masa depan individual 
atau keadaannya sekarang berdasar beberapa variabel yang berbeda dengan 
tes yang ditempuhnya; dan validitas konstruk bertujuan untuk menarik 
kesimpulan mengenai tingkatan kualitas seseorang berdasarkan kepada 
kinerjanya dalam tes. . 

Walaupun ada tiga jenis validitas di atas, Cronbach (1984), seperti 
yang dinyatakan oleh Messick (1989:19), menekankan bahwa penggo¬ 
longan validitas ke dalam tiga tipe tersebut tidaklah saling pilah. Cronbach 
mengatakan bahwa “the end goal of validation is explanation and 
understanding\ sehingga dia sampai kepada kesimpulan bahwa “the 
profession is coming around to the view thcit all validation is constmct 
validation Jadi, Cronbach mengatakan bahwa pada dasarnya validitas 
adalah validitas konstruks. 

Walaupun terdapat berbagai jenis validitas, .tetapi untuk te v prestasi 
belajar, validitas yang paling tepat adalah valditas isi. tJnfUk fckala sikap 
yang mengukur mengenai kecemasan, misalnya, maka disamping validitas 
isi, seharusnya dilakukan juga validitas konstruks. 


Validitas isi 

Pada beberapa instrumen, validitas bergantung kepada ketepatan 
pemilihan sampel atas domain atau isi tertentu suatu behaviour (tingkah 
laku). Jika ini yang dipakai sebagai acuan, maka validitas yang dibicarakan 
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adalah validitas i>i : . Dengan demikian, suatu instrumen disebut valid 
menurut validitas isi apabila isi instrumen tersebut teian merupakan sampel 
yang representatif dari keseluruhan isi hal yang akan diukur. Validitas isi 
sering disebut validitas ahli. 

~ Dikatakan oleh Nunnally f 1978. 92) bahwa ada dua standar utama 
untuk meyakinkan adanya validitas isi, yaitu: (1) koleksi butir-butir soa 
vang representatif terhadap semestanya, dan (2) metode penyusunan tes 
van° masuk akal (sensible). Dalam tes prestasi belajar, untuk meyakinkan 
bahwa butir-butir soal telah mewakili tujuan pembelajaran atau kompetensi 
dasar tertentu, diperlukan adanya outlme rinci, atau blue-pnnt (kisi-kisi) 
van° memuat pertanvaan atau permasalahan apa saja yang harus diujikan. 
Dalam kasus-kasus seperti ini. penilaian kualitas Lis,-kisi merupakan ha- 
gian penting untuk menilai validitas isi. 

Untuk tes hasil belajar, supaya tes mempunyai validitas isi. harus 

diperhatikan hal-hal berikut. , 

il, Bahan ujian (tes, harus merupakan sampel yang representatif untuk 
mengukur sampai seberapa jauh tujuan pembelajaran tercapai ditinjau 
dari materi yang diajarkan maupun dari sudut proses belajar. 

(2) Titik berat bahan yang diujikan harus seimbang dengan titik berat 
bahan yang telah diajarkan. 

(3) Tidak diperlukan pengetahuan lain yang tidak atau belum diajarkan 
untuk menjawab soal-soal ujian dengan benar. 

Untuk mempertinggi validitas isi, disarankan agar pembuat soal mela¬ 
lui langkah-langkah berikut 4 . 

(1) Mengidentifikasikan bahan-bahan yang telah diberikan beserta tujuan 
pembelajarannya atau indikator-indikator dari kompetensi dasar yang 
diukur. 

(2) Membuat kisi-kisi dari soal tes yang akan ditulis. Cara yang ditempu 
adalah membuat tabel dua jalan yang memuat is. pokok bahasan t atau 
indikator) yang akan diukur dan aspek tingkah laku yang akan dinilai 
(menurut Taksonomi Bloom, misalnya) 


: Uniuk skripsi atau tesix menurut penulis cukup dilakukan ' aiuk'.M .m saja. , 

3 Misalnya diberikan Ujian Nasional Matematika tingkat SMP yang berupa tes pi t w 
denean 5 alternatif jawaban. Banyaknya butir soal adalah 40 bu.,r dengan lama -ku 
pengerjaan 120 menit. Perbankanlah bahwa 40 butir yang diujikan m, mempakan sa np, ^ 
populasi yang seharusnya diujikan. Populasi yang seharusnya diujikan < d, k > 
kemampuan Matematika SMP yang dipelajari siswa selama mereka sekolah 3 tahun 
vin p kalau diujikan seluruhnya memerlukan waktu berhari-han . 

5 Langkah ini dilakukan kalau uji coba untuk mencari parameter butir (daya beda an i g s 
kesulitan) dan koefisien reliabilitas tidak memungkinkan. 
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(3) Menyusun soal tes beserta kuncinya. Dalam hal ini menyusun kunci 
sesaat setelah menulis soal tes sangat dianjurkan. 

(4) Menelaah soal tes sebelum dicetak. Penelaahan ini akan lebih baik apa¬ 
bila dilakukan oleh satu tim yang terdiri dari ahli-ahli yang relevan. 

Jika misalnya peneliti membuat suatu tes hasil belajar untuk meng¬ 
ukur variabel terikatnya (yaitu prestasi belajar), maka validasi isi dilakukan 
langkah-langkah berikut. 

(1) Mengidentifikasikan bahan-bahan yang telah diberikan beserta tujuan 
pembelajarannya atau indikator-indikator dari kompetensi dasar yang 
diukur. Pada penelitian, biasanya hanya satu atau kompetensi dasar 
tertentu, namun terdiri dari sejumlah besar (misalnya 15 buah) indi¬ 
kator. 

(2) Merencanakan berapa butir >ang seharusnya dipakai untuk mengukur 
variabel terikat. Untuk menghindari butir-butir \ang harus dibuang 
setelah dilakukan uji coba, maka banyaknya butir yang diujicoba harus 
lebih banyak daripada ban\akn\a butir yang diperlukan, misalnya di¬ 
beri lebihan 25%. 

(3) Membuat kisi-kisi dari soal tes yang akan ditulis. Cara yang ditempuh 
adalah membuat tabel dua jalan yang memuat isi pokok bahasan yang 
akan diukur dan aspek tingkah laku yang akan dinilai (menurut Takso¬ 
nomi Bloom, misalnya). Pada praktik penelitian, kisi-kisi ini adalah 
kisi-kisi untuk tes yang diujicobakan. 

(4) Menyusun soal tes beserta kuncinya. Dalam hal ini menyusun kunci 
sesaat setelah menulis soal tes sangat dianjurkan. 

(5) Menyerahkan soal tes, kunci jawaban, beserta cara penyelesaiannya 
kepada validator ( expert ) untuk dimintakan komentarnya. Perhatikanlah 
bahwa tugas validator bukan untuk menentukan butir mana yang harus 
dibuang, tetapi tugas validator adalah memberikan masukan kepada 
peneliti mengenai soal tes yang dibuatnya. 

Kadang-kadang pengembang tes menyatakan bahwa penulisan butir- 
butir tes dengan baik dari domain-domain spesifik (di kisi-kisi) yang disu¬ 
sun secara cermat telah memenuhi validitas isi. Tetapi ini sebenarnya bukan 
merupakan kegiatan validasi isi. Kegiatan validasi isi adalah serangkaian 
kegiatan yang berlangsung setelah bentuk awal instrumen telah selesai ditu¬ 
lis. Kegiatan ini dapat dilakukan oleh pengembang tes ataupun oleh peng¬ 
guna tes yang tidak terlibat dalam penyusunan tes. 

Untuk menilai apakah suatu instrumen mempunyai validitas isi yang 
tinggi, yang dilakukan adalah melalui experts judgment (penilaian yang 
dilakukan oleh para pakar). Dalam hal ini para penilai (yang sering disebut 
subject-mater experts ), melakukan dua hal pokok. Pertama, para penilai 
menilai apakah kisi-kisi yang dibuat oleh pengembang tes telah menunjuk- 




40 


Budvyoruy, Pe*\j*a*\£cLt' H cuil Belajar 


kan bahwa klasifikasi kisi-kisi telah mewakili isi (substansi) yang akan 
diukur atau telah sesuai dengan konsep yang telah didefinisikan. Kedua, 
para penilai menilai apakah masing-masing butir tes yang telah disusun 
cocok atau relevan dengan klasifikasi kisi-kisi yang ditentukan . Cara ini 
sering disebut relevcmce ratings (penilaian berdasar relevansi). Pada cara 
ini, biasanya, kepada para penilai diberikan suatu rentangan skala tertentu 
(misalnya 1-10. di mana 1 menunjukkan sangat-sangat tidak relevan dan 10 
menunjukkan sangat-sangat relevan, atau hanya dua kemungkinan yaitu baik 
dan tidak baik), kemudian ditentukan suatu rating (yang merupakan rataan 
dari para penilai» untuk masing-masing klasifikasi kisi-kisi dan masing- 
masing butir soal. Hasil dari relevcmce ratings ini dapat berupa mo-difikasi 
kisi-kisi, atau modifikasi butir soal, atau keduanya oleh pengem-bang tes 
berdasar masukan dari validator. 

Secara angkut. pada tingkat minimum, langkah-langkah dalam mela¬ 
kukan validasi isi. Crocker dan Algina menawarkan adanya empat langkah 
berikut. 

(1) Mendefinisikan domain kinerja yang akan diukur (pada tes prestasi 
dapat berupa serangkaian tujuan pembelajaran atau pokok-pokok ba¬ 
hasan atau sejumlah kompetensi dasar yang diwujudkan dalam kisi- 
kisi), 

(2) Membentuk sebuah panel yang ahli (c/ualified) dalam domain-domain 
tersebut. 

(3) Menyediakan kerangka terstruktur untuk proses pencocokan butir-butir 
soal dengan domain performans yang terkait (kerangka terstruktur ini 
biasanya berwujud tabel-tabel atau matriks-matriks yang biasanya 
disebut Lembar Validasi), dan 

(4) Mengumpulkan data dan menyimpulkan berdasar data yang diperoleh 
dari proses pencocokan pada Langkah (3). 

Allen dan Yeu (1979:95-96) membedakan validitas isi menjadi dua 
tipe, yaitu: (1) validitas tampang {, faie validity) dan (2) validitas logik 
(.logic validity) alau validitas sampling (sampling validity). Validitas tam¬ 
pang dipenuhi apabila terdapat similaritas (kesesuaian) antara hasil tes 
dengan trait (kemampuan) yang relevan yang diukur dengan tes tersebut. 
Misalnya, suatu tes aritmetika mempunyai validitas tampang apabila tes 
tersebut mengukur kinerja peserta tes dalam melakukan pengerjaan arit¬ 
metika. Di sisi lain, validitas logik dipenuhi apabila behaviour yang diukur 
oleh tes dan disain logik dari butir-butir tes telah mencakup aspek-aspek 


5 Pada keeiaian validasi isi (atau validasi ahli) ada dua bagian. Bagian pertama adalah pene- 
laahan kisi-kisi dan bagian kedua adalah penelaahan butir-butir soal kaitannya lengan isi- 
kisi. Namun demikian, pada skripsi dan tesis mahasiswa, bagian yang pertama stimg u a' 


dilakukan. 
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penting dalam domainnya. Validitas logik ini sangat esensial dalam 
pengembangan tes prestasi. Biasanya, yang disebut dengan \aliditas isi pa¬ 
da umumnya adalah validitas logik menurut Allen dan \ en. 

Dalam perkembangannya, validitas isi menjadi kontroversial sebab 
banyak pakar pengembang tes vang mendefinisikan validitas dalam ani 
yang terkait dengan inferensi yang ditarik dari skor tes (lihat definisi dari 
Messick di muka). Pada hal studi pada validitas isi jarang yang benumpu 
pada data skor tes. Biasanya, isi suatu tes divalidasi melalui metode subjek¬ 
tif seperti misalnya meminta penilai untuk memberi rating (skala) pada 
butir-butir soal apakah sesuai dengan klasifikasi kisi-kisi. Oleh karena itu. 
banyak yang mengusulkan penggantian nama validitas isi dengan nama lain 
vang lebih cocok, misalnya relevansi isi (content relevance). atau represen¬ 
tasi isi (content representation). atau keterwakilan isi <content rcpresen- 
mtiveness) (Sireci dan Geisinger. 1992:17). 

Berikut ini adalah >ebuah contoh lembar kerja untuk validasi isi. 


Contoh 3.1. 

Berikut ini adalah contoh Lembar Validasi untuk melihat kecocokan kisi-kisi 
dengan Kemampuan (kompetensi dasar) yang diukur 


Petunjuk: 

Perhatikan kisi-kisi yang telah dibuat oleh pengembang tes. Berikan komentar 
mengenai kisi-kisi tersebut dalam hubungannya dengan kompetensi dasar yang 
akan diukur, misalnya dalam kaitannya dengan hal-hal berikut. 

a. Apakah kompetensi dasar yang akan diukur telah lengkap? 

b. Jika terlalu banyak, kompetensi dasar saja yang harus dikurangi, dan jika 
terlalu sedikit, kompetensi dasar apa yang perlu ditambahkan. 

Komentar Validator: 


i 


Contoh 3.2 

Berikut ini adalah contoh tabel untuk melihat kesesuaian butir soal dengan 
kisi-kisi 
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Petunjuk: 

Berilah tanda check pada kolom yang sesuai, jika butir soal telah memenuhi 
kriteria yang disebutkan. Jika tidak sesuai, berilah tanda silang, dan berikan 
komentar perbaikan mengenai butir soal tersebut pada lembar >^g d.ben- 
kan. Jika sekiranya lembar yang diberikan tidak mencukupi. Bapak/ Ibu 
validator dapat menambahkan pada lembar tersendiri. 


Tabel 3.1 . Contoh Lembar Validasi suatu Tes 


No 

Kriteria penelahaan 6 __ 

Nomor Butir 
'l 1 2 ! ... 1 40 


1»tt>ri (Substansi) ---- t- 1 -r 


j j Butir >oal sesuai dengan kompetensi dasar atau 

i ' indikator vans ingin dicapai ______-— 4 - r 

! 

: 1 


i- 

_4— 4 


i 

, y 

vinnda butir soal telah dipelajari oleh siswa t 

Kunci iawaban pada butir soal telah benar J _ [ -i- ! -j 

r <sf»oi Konstruksi ___—- —r -:-: 

,_ 1 

4 

Pokok soal dirumuskan dengan singkat dan je.as _ 

1 


_ 

-- 

5 

Pokok soal bebas dari pernyataan yang dapat 
menimbulkan penafsiran ganda 





6 

Jawaban butir soal ini tidak tergantung kepada 
jawaban butir soal yang lain -- 





7 

r»_Kutir cr»ni endah disusun dengan baik 






Segi I 

8 

sanasa_____—.—■—r--- — 

Butir soal menggunakan bahasa Indonesia yang baik 

dan benar -— 





9 

Butir soal menggunakan bahasa yang komunikatif 




-- 

10 

Butir soal tidak menggunakan bahasa atau istilah 
vang berlaku pada daerah tertentu 






Saran Masukan Validator: 


Mohon dituliskan di bawah ini 


1 . 

2. 

3 . 


Validitas berdasar kriteria 

Oleh Allen dan Yen (1979:97) dikatakan bahwa validitas berdasar 
kriteria (criterion-related validity) digunakan ketika skor tes dapat dihu- 


6 Kriteria penelaahan yang ditampilkan pada huku ini sekedar contoh. Pai J pembaca dapat 
mengembangkannya sendiri sesuai dengann tujuan penilaian. 
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bungkan dengan sebuah kriteria tertentu. Dalam hal ini kriteria adalah 
tingkah laku tertentu yang skor tes dapat digunakan untuk memprediksinya. 

Dengan demikian, validitas berdasar kriteria adalah validitas yang 
ditinjau dari segi hubungan dengan alat pengukur lain yang dipandang 
sebagai kriteria untuk menentukan tinggi rendahnya validitas alat ukur yang 
sedang dipersoalkan. 

Validitas semacam ini lebih menekankan pada kriterianya, bukan 
pada instrumennya itu sendiri. Berbeda dengan validitas isi, validitas berda¬ 
sar kriteria ini menggunakan teknik-teknik empiris hubungan antara skor 
instrumen yang dipersoalkan dengan kriteria luar, sehingga identifikasi 
kriteria menjadi penting. Beberapa ciri yang harus dimiliki oleh suatu ukur¬ 
an kriteria adalah relevansi, reliabel. dan bebas dari bias. 

Ciri pertama adalah relevansi. Peneliti harus menilai apakah kriteria 
yang telah dipilih itu benar-benar menggambarkan ciri-ciri yang tepat dari 
tingkah laku yang diselidiki. Jika kriteria tersebut tidak mencerminkan 
atribut yang sedang diteliti, maka akan tidak ada artinya menggunakan kri¬ 
teria tersebut. Ciri kedua adalah reliabilitas. Hal ini berarti bahwa kriteria 
tersebut harus merupakan ukuran yang ajeg bagi atribut tersebut, dari waktu 
ke waktu dan dari satu situasi ke situasi yang lain. Apabila kriteria itu sendiri 
tidak konsisten, maka tidak dapat diharapkan bahwa alat ukur yang 
dipersoalkan akan memberikan keajegan. Ciri ketiga adalah bebas dari bias. 
Ini berarti bahwa pemberian skor pada suatu kriteria hendaknya tidak 
dipengaruhi oleh faktor-faktor selain penampilan sebenarnya pada kriteria 
itu. 

Misalnya, agar supaya sebuah tes penerimaan pegawai dapat mem¬ 
punyai validitas berdasar kriteria, skor tes penerimaan tersebut harus 
berkorelasi dengan kriteria tertentu, misalnya efektivitas kerja (job 
effectiveness). Contoh lain, sebuah tes masuk perguruan tinggi mempunyai 
validitas berdasar kriteria apabila skor hasil tes berkorelasi dengan suatu 
kriteria tertentu, misalnya indeks prestasi mahasiswa. 

Tinggi rendahnya indeks validitas berdasar kriteria biasanya dinyata¬ 
kan oleh koefisien korelasi antara skor tes (prediktor) dengan skor kriteria. 
Salah satu koefisien korelasi yang dapat dipakai adalah koefisien korelasi 
momen produk dari Kari Pearson yang dirumuskan berikut. 

= nIXY-tIX)<I Y) 

V(nIX 2 -(IX) 2 )oiI Y 2 (I vTi 

dengan r xy adalah koefisien validitas, X adalah skor tes, dan Y adalah skor 
kriteria. 
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Contoh 3.3 

Seorang peneliti ingin menghitung koefisien validitas tes masuk perguruan 
tinggi. Sebagai kriteria untuk menentukan validitas tes tersebut adalah IrK 
(Indeks Prestasi Kumulatif) setelah mahasiswa lulus. Misalnya datanya 
adalah sebagai berikut. 


Tabel 3.2. Nilai Skor Tes Masuk dan 1PK !0 Mahasiswa 


No 

Nama Mhsw 

Skor Tes Masuk 

IPK 

1 

Aa 

45 

3,45 

? 

Bb 

65 

3,65 i 


Cc i 85 J 

4.00 

-- 

4 

Dd 

65 

3.54 

5 

Ee 

75 


6 

~Ff-; 

60 I 3,65 

7 

Gg 

55 

3,50 

8 

Hh 

45 

3,24 

9 

li 

75 

3,60 

10 

jj_ 

95 

4,00 


Jawab: 

Dengan memisalkan Skor Tes Masuk sebagai X dan 1PK sebagai Y, dibuat 
tabel ketja berikut. 


Tabel 3.3. Tabel Kerja untuk Mencari Koefisien Validitas Tes Masuk 


No 

X 

Y 

X 2 

Y 2 

XY 

1 

45 

3,45 

2025 

11,9025 

6986,25 

2 

65 

3.65 

4225 

13,3225 

15421,25 

3 

85 

4.00 

7225 

16,0000 

28900.00 

4 

65 

3 . s a 

4225 

12.5316 

14956,50 

5 

75 

3.63 

5625 

13,1769 

20418,75 

6 

60 

I 3.65 

3600 

13,3225 

13140,00 

7 

55 

3,50 

3025 

12.2500 

10587,50 

-- 

8 

45* 

3,24 

2025 

10,4976 

6561,00 

9 

75 

3,60 

5625 

12.9600 

20250,00 

10 

95 

4.00 

9025 

16,0000 

36100,00 

Jumlah 

X x = 

665 

Zv = 

36,26 

£x 2 = 

46625 

SY 2 = 
131,9636 

X XY = 

^3321,25 
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f _ _ nIXY~(,IX)(TY) 

y[( nix 2 -(yX) 2 )( n yY 2 -(IY) 2 ) 

(10)( 17331.25)-(665)(363) 
yj(( 10X46625 - 665 2 H <10)(13 L9636i - 36.26 2 > 

= 'J*™* - = 0,501 

,/(24025(4^848)_^ ^ ^ ^ ^ ' 

Jadi, koefisien validitas tes masuk tersebut adalah 0.501. Koefisien vali¬ 
ditas ini tergolong kecil. Dikatakan bahwa tes masuk tersebut tidak mem¬ 
punyai validitas yang baik. 

Secara umum, desain untuk melakukan valida>i berdasar kriteria 
adalah sebagai berikut (Crocker dan Algina. 1986:224). 

(1) Identifikasikan behaviour kriteria vang cocok dan cara untuk mengukur 
behaviour tersebut, 

(2; Identifikasikan sampel dari peserta tes yang dapat mewakili peserta tes 
yang sesungguhnya akan dikenai tes, 

(3) Selenggarakan tes dan simpanlah skor dari sampel peserta tes, 

(4) Ketika kriteria sudah diperoleh, lakukan pengukuran kinerja pada kri¬ 
teria tersebut untuk setiap sampel peserta, dan 

(5) Tentukan koefisien korelasi antara skor tes dengan skor kinerja sebagai 
kriteria, yang koefisien korelasi tersebut merupakan koefisien validitas. 

Validitas berdasar kriteria dikelompokkan menjadi dua jenis, yaitu 
validitas prediktif (predictive validity ) dan validitas konkuren ( concurent 
validity). 

Pada validitas prediktif, skor kriteria yang dipakai untuk mempredik¬ 
si behaviour tidak tersedia ketika tes dilakukan, tetapi tersedia di kemudian 
hari. Jadi, pada kasus ini, kriterianya tidak tersedia pada saat tes berlang¬ 
sung, namun kriterianya baru dapat ditentukan setelah selang waktu ter¬ 
tentu. Misalnya, pada tes penerimaan karyawan baru, kriterianya adalah 
kinerja pegawai. Indeks kinerja pegawai ini baru dapat ditentukan setelah 
pegawai yang diterima diobservasi kualitas kinerjanya selelah beberapa 
waktu, misalnya setelah satu tahun bekerja. Pada kasus seperti ini, indeks 
validitas prediktif hanya dapat dilihat pada mereka yang telah diterima 
sebagai pegawai, yang indeks validitas berdasar cara ini pada umumnya 
berada di bawah indeks validitas yang sebenarnya. Tentu saja validitas pre¬ 
diktif ini menjadi mahal dan memerlukan waktu yang lama. 

Di sisi lain, pada validitas konkuren, kriteria yang dipakai untuk 
mengkorelasikan hasil tes telah ada (atau dapat dicari) pada saat tes 
berlangsung. Misalnya, untuk melihat validitas suatu tes yang baru disusun, 
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,. . „ o tanc iar vane telah diakui mempunyai indeks validitas yang 

digunakan tes stanaar yang icuu , , siswa vang saina 

tinggi. Mm -es tersebut dikenakan t sarita.au 

(a,uu dua kelompok siswa yang sama korelasi r , es vaM 

hampir korelasinya ttnggt. 

rn^a dapar disimpulk».b-*™ tes y«»g baru disusun mempunya, indeks 

validitas konkuren yang tinggi. 


V °" d t,rtsiruks e, ^ S 

£”«'S n ^Stt l ’n:;:,^uda,ahsuLuukt : n„ 

yiing^mengukur konsiruk teoreds aiau ,,,,, ^IJ^S 

diukur (rfre *p« « "' V r' eo e baru yang terkai, 

tirai ,1 »as r/esigned m memuret. Berd.su nal. «d ‘ 'j 

dengan trait yang akan diukur. Pe^gem -u k “ Prediksi ini kemu- 

didukung A data, maka tes lersebo, tidak 

«.s sr~~. «s 

“ as=!f=s“« km- ” 

-TsrjitSrS 

mengujinya dengan statistik. Misalnya berdasarkan teon harat ada perte 

pengembang ~ “ 

kelompok remaja. 

2 Perubahan. Jika teori pendukungnya mengatakan bahwa t'*™ maka 
skor seiring dengan berjalannya w t\°“'lemebm Misalnyt! tei yang 

*« « " bih 

tinggi seiring dengan pertumbuhan anak-anak. 

. ■»» «—• *’*• “• 

diperlukan pengujian dengan validitas konstruks. 
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3. Korelasi. Teori pendukungnya bisa jadi memunculkan adanya korelasi 
positif, negatif, atau nol antara berbagai variabel yang mungkin muncul. 
Kalau teori mengatakan seperti itu, maka pengembang tes harus menguji¬ 
nya secara statistik. Misalnya tes yang mengukur short-term memory 
menurut teori harus berkorelasi positif dengan umur. tetapi tidak 
berkorelasi dengan jenis kelamin. 

4. Proses. Misalnya terdapat tes mathematical-reasoning yang berisi soal 
cerita ( word problems) yang menggunakan kata-kata atau kalimat-kalimat 
yang sangat sukar. Untuk melakukan validitas konstruk pada tes tersebut, 
pengembang tes harus menguji apakah teori yang melandasinya didukung 
oleh data. Misalnya membedakan antara peserta tes vang vocabularyn ya 
baik dan yang tidak 


V aliditas Faktorial 

Validitas faktorial ( jaciorial validity) adalah salah satu bentuk vali¬ 
ditas konstruks yang dibangun melalui analisis faktor. Validitas jenis inilah 
yang sering dipakai untuk melakukan validitas konstruks. Analisis faktor 
adalah suatu istilah yang menyatakan sejumlah besar prosedur matematik 
untuk melakukan analisis mengenai interrelasi antara sejumlah variabel dan 
menjelaskan interrelasi tersebut dalam sejumlah variabel yang lebih sedikit, 
yang disebut faktor. Faktor adalah variabel hipotetik (ada yang menyebut 
variabel laten) yang mempengaruhi skor pada satu atau lebih variabel amat¬ 
an. 

Ada dua jenis analisis faktorial. Yang pertama adalah analisis faktor 
eksploratori (exploratory factor analysis ), sedangkan yaing kedua adalah 
analisis faktor konfirmatori ( confirmatory factor analysis ). Analisis yang 
dipakai untuk menguji validitas konstruks adalah analisis faktor konfirma¬ 
tori, yang pada dasarnya membandingkan pembagian faktor-faktor ketika 
merencanakan tes dengan faktor-faktor yang diperoleh dengan analisis faktor 
konfirmatori. Jika keduanya menunjukkan hal yang sama, maka tes tersebut 
telah memenuhi validitas konstruks. 

Untuk melakukan validasi konstruks dengan analisis faktor konfir¬ 
matori, dapat digunakan Software tertentu, misalnya Lisrel atau AMOS. 

RELIABILITAS 

Suaju _instrumen disebut reliabel apab ila has il pe nguk uran dengan 
instrumen tersebut adalah sama jika sekiranya pengukuran tersebut dila- 
kinkan pada orang yang sama pada wa ktu vang berlainan atau pada orang- 
orang yang beria mari (tetapi mempu nyai kond isi vang sama) pada waktu 
yang sama atau pada waktu yang berlainan. Dengan kata lain, sebuah tes 
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disebut reliabel jika seseorang diuji dengan tes tersebut beberapa kali akan 
menghasilkan skor vang sama atau beberapa orang yang kemampuannya 
sama diuji dengan tes tersebut akan menghasilkan skor yang sama. Kata 
reliabel -ering disebut dengan nama lain, misalnya terpercaya. terandalkan, 
aieg, stabil, konsisten, dan lain sebagainya. 

Reliabilitas menunjuk kepada konsistensi hasil pengukuran jika 
dilakukan pengukuran berulang-ulang pada individu-individu atau kelom¬ 
pok-kelompok dalam suatu populasi (AERA, APA , & NCME, 1999. 25). lm 
berarti, keterandalan suatu tes menunjuk kepada besarnya kesalahan 
pengukuran vang dihasilkan oleh tes tersebut. Semakin besar koefisien ke- 
terandalan suatu tes akan semakin kecil kesalahan pengukurannya (Djeman 
Mardapi. dkk. 2002: 113). 

Pak, umumnya tidak pernah didapatkan instrumen yang mempunyai 
reliabilitas sempurna, sebab setiap kali mengadakan pengukuran dengan 
alat vang sama terhadap subjek vang sama biasanya diperoleh hasil yang 
berbeda.*" Hal ini disebabkan adanya kesalahan (yang mungkin juga 
ditimbulkan oleh instrumen itu sendiri atau ditimbulkan oleh orang yang 
menggunakan instrumen itu), yang akibatnya skor yang diperoleh dan 
suatu subjek bukanlah skor yang sebenarnya, melainkan skor yang sudah 
ditambah dengan kesalahannya. Dengan demikian, sebuah instrumen mem¬ 
punyai reliabilitas yang tinggi apabila derajat kesalahannya kecil. 

Mengacu kepada adanya kesalahan tersebut, biasanya orang mengata¬ 
kan bahwa hasil pengukuran dapat dipercaya apabila dalam beberapa kali 
pelai^ana^nj 2 sngllltUMLttriiadap_suhiek-yanfi_sam^atau kelompok subjek 
yaiig Tama diperoleh hasil jiengukuran yang relatifsama^selama aspek 
yang diukur dalam diri subjek atau kelompok subjek itu memang tid 
berubah Tentu saja suatu instrumen tidak harus dikenakan beberapa kali 
kepada subjek yang sama. Jika suatu instrumen tidak dikenakan kepada 
subjek (atau kelompok subjek) yang sama, suatu instrumen menghas Ikan 
hasil pengukuran yang dapat dipercaya jika dikenakan kepada subjek (atau 
kelompok subjek) yang berlainan, tetapi dengan kondisi yang sama, 
menghasilkan hasil pengukuran yang relatit sama. Alat ukur tinggi > 

misalnya mempunyai reliabilitas yang tinggi, sebab jika dipakai untuk 
men-ukur seseorang akan menghn-ilkan tinggi badan yang sama, sekalipdn 
peneukuran itu dilakukan berulang-ulang. Jika alat ukur tinggi a an i u 
dipakai untuk mengukur orang yang berlainan, tetapi mempunyai t.ngg. 
badan yang sama, pasti akan menghasilkan tinggi badan yang sama. 

Merujuk uraian pada Bab 11, pada teori tes klasik, koefisien reliabi¬ 
litas instrumen dinyatakan dengan p XX ' Terdapat banyak rumus untuk 
koefisien reliabilitas tersebut, di antaranya adalah: 
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~ i G c 

Pxx' = 1 - — 

°X 

Karena = o j- —oj . dapat dibuktikan bahwa rentang koefisien 

reliabilitas adalah: 

0 - PXX’- * 

Suatu instrumen disebut reliabel jika ~. sehingga dari sini dapat 

o X ~ 

dikatakan bahwa suatu instrumen disebut reliabel jika PxX’ - 'J alau 
dengan mengambil penvederhanaan. suatu i ns t rume n disebut reliabe l jika 
Pxx : > 0.7(1 -t> $=© v^^vT^'rerva^U^snyo . 

Pada dasarnya koefisien reliabilitas tidak dapat dihitung, karena data 
mengenai error (e) tidak diketahui, sehingga variansinya pun tidak dike¬ 
tahui. Oleh karena itu, orang mengembangkan berbagai cara untuk 
mengestimasi koefisien reliabilitas. i I f 

treVaVvU bas 10SVcu«)©o paVog adi 

Kesalahan Baku Pengukuran 

Perhatikan salah satu formula koefisien reliabilitas berikut ini. 


PXX’ = : 


Berdasarkan formula itu dapat diperoleh o e =oxyr~PXX' * Besaran 
ag disebut kesalahan baku pengukuran (the Standard error oj 
measurement). Jika koefisien reliabilitas diestimasi dari sampel, maka 
kesalahan pengukuran dirumuskan oleh s e = s X>r “DOC’ atau 
s e = S X aA r l 1 jika koefisien reliabitas dinyatakan dengan rj j. 


Contoh 3.4 

Dengan menggunakan rumus KR-20. seorang peneliti memperoleh ij | = 
0,85. Variansi skor yang diperoleh adalah 14. Berapakah kesalahan baku 
pengukurannya? 

Jawab: 

rj j = 0,85; s x = 14; s e = ? 
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s e = S X yJ^ ~~ r l 1 = ^ Wl -0.95 - J. 13 

Jadi kesalahan baku pengukurannya adalah 3,13. 

METODE UNTUK MENG ESTIMASI KOEFISIEN RELIABILITAS 
Metode yang digunakan untuk mengestimasi koefisien reliabilit s 
instrumen (terutama tes hasil belajar) dapat dikelompokkan menjadi ti^t 
aolongan besar, yaitu: (a) metode satu kali tes, (b) metode tes ulang, dan (< ) 
metode bentuk sejajar (paralel). Metode mana yang sebaiknya dipakai, 
tidak ada aturan baku. Namun, biasanya orang memilih metode satu ka i 
tes, sebab metode ini mudah dilakukan dan berbiaya murah dibandingkan 
dengan dua pendekatan vang lainnya. 

Perlu diketahui balnva tiua macam metode tersebut menghasilku i 
koefisien rejiabilitas yang berbeda-beda. Dianjurkan kepada pengembang 
tes untuk mencantumkan meode dan teknik mana yang dipakai. <-u 
cantuman tersebut sangat penting untuk menghindari (mengurangi > sana 
tafsir dari pihak yang menggunakan tes tersebut. 


Metode Satu Kali Tes 

Metode ini disebut juga sinele-t est method atau single-trial metho'i. 
Deng an metode, ini penambang tes ^anya nid akukan pengukuran 
(menggunakajLinslrunier) yang dipersoalkan reliabilitasnya) kepada i 
kTFrTpok subjek satu kalisaja. RjdiabjHtasjjp^^ ,r ’ 

consistenc y reliability. 

Metode ini merupakan metode yang paling banyak dipakai kare. 
merupakan metode yang paling ekonomis dan paling praktis. B c berapi 
teknik yang sering digunakan dalam metode satu kali tes adalah sebag .1 
berikut. 


Teknik Spearman-Brown 

Teknik ini dikennl pula dengan leknik belah-dua. sebab dala. i 
m e n e ntukafn<oefTs ienr e lia b i 1 i i as n y a. soal tes dikelompokkan menjadi dua 
baoian yang sebanding (paralel, setara ). CarajangJ^oyalLdiganakan tala . 
membelah alat pengukur menjadibutir-iuur^ang^ bernomoi genap inenjadi 
satu bagian dan butir-butir ya ng bernomor gasal menjadi bagian yang ain 
Oleh" karena itu, teknik ini serjjag disebut teknik ga^bJsgfigP. ‘ eve,t 
\ecim\que). 

Kadang-kadang pembagiannya mengacu kepada nomor urut butirnya. 
Misalnya suatu soal tes terdiri dari 40 butir soal, maka butir butir soal 
nomor 1 sampai dengan 20 menjadi bagian pertama, sedangkan butir-butir 
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nomor 21 sampai dengan 40 menjadi bagian kedua. Bagian pertama dan 
kedua merupakan bagian yang saling paralel. 

Instrumen (vang sebenarnya terdiri dari dua bagian) itu diberikan 
kepadaHsekelompbk' subjek. Dengan sendirinya masing-masing subjek akan 
mem pun y af dua buah skor, yaitu skor bagian pertama dan skor bagian 

kedua Koefisien korelasi antara dua macam skor itu disebut q \- 

22 


Spearman dan Brown merumuskan koefisien reliabilitas instrumen 
sebagai berikut. ^^ p j \ ; fjUOLlOO Y 

* ^ 2 tn i iTv/ , * ... 


dengan 



mus 


3 . 1 / 


fafcdv 

adalah koefisien 


iu^trumea dan r^ 

T *> 


korelasi antara skor bag ian pe rtama dan bagi^_kedua. % 


Perhatikanlah bahwa rumus pada Persamaan 3.1 merupakan rumus 
Sperman-Brown yang ditulis pada Bab II dengan mengambil N = 2. 

Untuk menggunakan rumus Spearman-Brown, ada beberapa syarat, 
yang harus dipenuhi, yaitu: 

(a) Dua belahan yang diciptakan harus merupakan dua tes yang paralel. 

(b) Banyaknya butir instrumen harus genap. 

(c) Instrumen yang dicari reliabilitasnya harus homogen. 

Teknik Flanagan 

Kelemahan dari teknik Spearman-Brown ialah bahwa syarat pertama 
tersebut di atas sulit dipenuhi. Untuk menutupi kelemahan itu, Flanagan 
menciptakan rumus sebagai berikut. • <3otO ^30 

\ Saff?e! [m 

3 o pctt=: 

«« cT- arlalnh ’ vnrmn<;i ins- ^ 


\ 


a t 


dengan r n a dalah koe fisien reliabilitas instrumen. S] adalah variansi ins- 
trume n helnhan p ertama, s \ adalah variansi instrume n belahan kedua, dan 
s^ adalah variansi instrumen total. 

jika dikenakan kepada populasi, rumus tersebut berubah menjadi 
berikut. 
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Pil 


2(1 


2 2 
<*, + <*-> 
~h-> 
a r 


Teknik Rulon C?'' < J«' , 

Teknik lain yang mendasarkan pada pembelahan alat pengukur men¬ 
jadi dua bagian vans sama ialah teknik yang dikembangkan oleh Rulon. 
Teknik ini berpangkal kepada dasar pemikiran bahwa perbedaan antara 
skor subjek uji coba pada bagian pertama dan skor subjek uji coba pada 
baaian kedua adalah karena kesalahan pengukuran. Oleh karena itu. 
variansi yang diperoleh berdasarkan perbedaan tersebut dapat dipandang 
sebagai variansi skor kesalahan pada model X = T + e. 

" ru "“ >-* s 

c^olo (j»ri> dicari 

V/cuocurN^M.«, iil . . 

dengan r,, adalah koefisien reliabilitas instrumeri, s d adalah variansi per- 

Jjedaan skor antara dua belahan, dan s? adalah vanansi SKor total. 

Perhatikanlah bahwa rumus pada Persamaan 3.3 merupakan turunan 

a 2 

dari rumus koefisien reliabilitas pxx' = 1 -§~ pada Bab 

a x 

Jika dikenakan kepada populasi, rumus Rulon tersebut berubah men- 
jadi berikut. 


pi i= 1 




Teknik Kuder-Richardson 

Kuder dan Richardson merasa tidak puas dengan teknik belah dua. 
Mereka menganggap bahwa pembelahan instrumen menjadi dua bagian 
bukan merupakan teknik yang baik untuk mencari koefisien re ia i i as. . 
ini disebabkan dalam praktik, pembelahan menjadi dua bag.an dapat di a- 
kukan dengan 'bermacam-macam cara yang biasanya memperoleh hasi 

yang berbeda. 

Untuk menghindari hal ini, Kuder dan Richardson tidak membelah 
menjadi dua, melainkan memperhatikan banyaknya butir dan memper¬ 
hatikan banyaknya subjek yang menjawab benar pada tiap-tiap butir. Ini 



Bab-III. Tes&atv periyaratavuvyay 


53 


berarti bahwa teknik Kuder-Richardson mendasarkan kepada analisis 
masing-masing butir. 

Namun perlu diingat bahwa teknik ini hanya dapat dipakai untuk 
instrumen yang dikhotomus (setiap butir hanya mempunyai dua kategori 
.skor yaitu 1 atau 0, seperti pada misalnya tes pilihan berganda, yang diskor 
1 jika benar dan diskor 0 jika salah). Untuk instrumen skala sikap dengan 
skala Likert, teknik ini tidak dapat dipakai. 


Rumus dari Kuder-Richardson berbentuk sebagai berikjjL 



C1LX ( ) 


'z. 


dengan n j adalah koefisien reliabilitas instrumen, n adalah banyaknya 
butir instrumen, p; adalah proporsi banyaknya subjek >ang menjawab be¬ 
nar pada butir ke-i, q t = 1 - p,. dan adalah variansi untuk skor total- 

Contoh 3.5 i S\S\x>cX | 

Misalnya terdapat 10 butir soal yang diujicobakan kepada 8 siswa dengan f^iLu 
data sebagai berikut. \ - p\ 

Tabel 3.4. Sebaran Skor untuk 8 Mahasiswa pada 10 Butir Soal 


No 

Na¬ 

ma 

Nomor Butir Soal 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

Aa 

1 

0 

1 

0 

1 

1 

1 

1 

1 

1 

2 

Bb 

1 

0 

1 

0 

1 

1 

0 

1 

1 

1 

3 

Cc 


0 

1 

0 

1 

1 

0 

1 

1 

1 

4 

Dd 

1 

0 

1 

0 

0 

1 

1 

1 

0 

1 

5 

Ee 

1 

0 

0 

I 

0 

1 

1 

0 

1 

0 

6 

Ff 


0 

0 

1 

1 

0 

0 

1 

0 

0 

7 

Gg 

T" 

0 

0 

1 

0 

0 

1 

0 

______ 

0 

0 

8 

Hh . 


0 

0 

1 

0 

0 

! 0 


0 

1 


Keterangan: jika skor pada butir tertentu adalah 1 berarti peserta tes yang bersang¬ 
kutan menjawab benar butir tersebut dan jika skor butir tersebut 0 
berarti peserta tes tersebut menjawab salah pada butir tersebut. 
Misalnya peserta tes yang bernama Aa benar menjawab keseluruhan 
butir, kecuali butir nomor 2 dan 4. 


Estimasi koefisien reliabilitas tes tersebut dengan KR-20. 
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UnTuk masing-masing peserta tes dihitung skor totalnya, kemudian dibuat 
tabel ketja seperti pada tabel berikut ini 


Tabel 3.5. Tabel Kerja untuk Mensestimasi Koefisien Reliabilitas 


No 

Na- 

Nomor Butir Soal 



Skor 

Total 

ma 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

Aa 

l 

0 

1 

0 

1 

1 

! 

1 

1 

l 

8 

? 

Bb 

1 

0 

1 

0 

1 

1 

JL, 

i 

1 

1 

7 

3 

Cc 


0 

1 

0 

1 

1 

0 

1 

1 

1 

7 

4 

D d 

1 

0 

1 

0 

0 

1 

> 

i 

0 

1 

--- 

6 

__ 

Ee 

1 

0 

0 

1 

0 

1 

i 0 

1 

0 

S 

--- 

6! 

Ff 

1 

0 

o 1 

1 

1 

0 

0 J i 


_i 

7 

Gg 

"T 

0 

0 

1 

0 

0 

H" 1 i o 

0 ! 0 

i ? _i 

8~ 

Hh 

i 

0 

0 

1 

0 

o ! t' j o 

o 

1 

l 3 | 


p 

i 

0 

0,5 

0,5 

0,5 

0,63 

0,5 

0,63 

r 0,5 

0,63 


— 

q 

0 

1 

0,5 

0,5 

0,5 

0,38 

0,5 

0,38 

0,5 

0,38 



pq 

0 

0 

0,25 

0,25 

0,25 

0,23 

0,3 

0,23 

0,25 

0,23 

Ipc^ 

1,95 


Setelah dihitung, diperoleh s? =3,69, sehingga: 



Berdasarkan perhitungan tersebut, diperoleh koefisien 
tes sebesar 0,523. 


reliabilitas 


Pada rumus di atas, jika datanya dianggap merupakan data populasi, 
maka rumus dari Kuder-Richardson berbentuk sebagai berikut. 

( n Y g?-£Pi9i 

P1,= U^l"TJ 

dengan p,, adalah koefisien reliabilitas instrumen, n adalah banyaknya 
butir instrumen, p, adalah proporsi banyaknya subjek yang menjawa 

benar pada butir ke-i, q, = 1 - Pi , dan o? adalah variansi skor total. 
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Di samping rumus KR-20. Kuder dan Richardson juga mengemuka¬ 
kan ru m u sny a^angj ai n, yang disebut rumus K R- 21. sebagai berikut. 


f _ r 


r l! 


k n 1 


>r 

i i 


R(n-R) 


dengan rj j adalah koefisien reliabilitasTnstrumen. n adalah banyaknya bu¬ 
tir instrumen, R adalah re rat a skor tota l, dan adalah variansi skor total 

Hasil penghitungan dengan KR-20 dan dengan KR-21 akan 
menghasilkan koefisien reliabilitas vamz kurane lebih sama besarma. 


Teknik Alpha 

Teknik a lpha... (koefisien alpha) ini dikemoar.gkar, pertama kali v»1 e 1« 
Cronbach pada tahun j9 51. cir r TRar einalTya sering dikebut teknik Cronbadi 
alpha. Berbeda dengan teknik Kuder-R icharson. teknik aTpi iaclaj5aTdi pak a i 
untuk rnstfiimeh~”yang tidak dikotomus (misalnya pada angket atau tes 
uraian). 

Pada teknik ini, sebuah tes dapat dibelah menjadi beberapa bagian, 
misalnya k bagian (dengan k<n, n adalah banyaknya butir soal). Pada 
praktiknya, instrumen dapat dibelah menjadi n bagian, yang berarti masing- 
masing bagian terdiri dari satu butir saja. Pada teknik ini, masing-masing 
bagian dicari variansi skornya. Juga dicari variansi skor totalnya. Kemudi¬ 
an, koefisien reliabilitas dihitung dengan rumus berikut. . 

s, * - \ r ojn and \ ncp 

3.4 


dengan rj j adalah koefisien reliabilitas instrumen, n adalah banyaknya 
butir instrumen, s f adalah variansi belahan ke-i, i = 1, 2. k (k < n ) atau 

variansi butir ke-i, i = 1, 2, 3, n , dan s“ adalah variansi skor total 

yang diperoleh subjek uji coba. Rumus 3.4 tersebut sering disebut rumus 
Cronbach Alpha. 

Pada rumus di atas, jika datanya dianggap merupakan data populasi, 
maka rumus dari Cronbach alpha berbentuk sebagai berikut. 

2 ' 



Pll = 


n -1 
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Contoh 3.6 

Misalnya terdapat 10 butir soal yang diujicobakan kepada 8 siswa dengan 
data sebagai berikut. 


Tabel 3.6. Sebaran Skor dari 8 Peserta Tes pada W Butir Soal 


— 

Na- 

Nomor Butir Soal 


No 

ma 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 

Aa 

1 

0 

1 

0 

■ 

1 

1 

» 

1 

i ! 

h-—s 

2 

Bb 

1 

0 

1 

u 

I 

1 

0 

i 

1 1 M 

3 

Ce 

1 


7 ~~ 

0 

1 1 

1 

0 

i - j s i j 

i T 

Dd 


0 


n 

0 

i 

1 

i ; u T i | 

; 5 

Ee 

1 

0 

0 


w 

! 

i 

fi ; : ; ;) i 

i 6 

Ft 

[~T 

nr 

0 

‘ i 

1 

0 

0 

i 

_ 

0 

1 0 i 

— —! 

7| Gg 

rr 

1 0 

0 

i r 

r o 

0 

1 

| 0 

! 0 


8 

Hh 

E 

E 

0 

LL 

l_2_ 

0 

0 

L1. 

1 o 
__ 

i_2— 


Estimasi koefisien reliabilitas tes tersebut dengan menggunakan rumus 
Cronbach-Alpha. 

Jawab: . # 

Dicari skor totalnya, lalu dibuat tabel kerja sebagai berikut. 


Tabel 3.7. Tabel Kerja untuk Mengestimasi Koefisien RebabiliM 


No 

Na¬ 

ma 

Nomor Butir Soal 


Skor 

Total 

~Tj 

T| 

3 

4 

5 

6 

7 

8 

9 

10 

1 

Aa 

1 

0 

1 

0 

1 

1 

1 

1 

1 

1 

8 

2 

Bb 

1 

T 

1 

0 

1 

1 

0 

1 

1 

1 

7 

3 

Cc 


0” 

1 

0 

I 

1 

0 

1 

1 

1 

7 

4 

Dd 

1 

0T 

1 

o TT 1 

u . 

1 

1 

0 

t 

6 

k—- 

5 

Ee 

T~ 

~o~ 

0 

1 

0 

1 

1 

0 

1 


5 

6 

fF~ 

i 

0 

0 

1 

i 

0 

0 

1 

0 

0 

4 

7 

Gg 


T 

0 

1 

0 

™0 

1 

0 

0 

0 

1 3 
r ■ 

8 

Flh 

i 

"o” 

0 

1 

0 

0 

0 

0 

0 

1 

3 


S? 

0 

0 

0,29 

0,29 

0.29 

0,27 

0,29 

0,27 

0,29 

0.27 

s = 

3.69 
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Setelah dihitung, diperoleh ][V Z = 2,26 dan s j" =3,69, sehingga 
diperoleh: 



Jadi, koefisien reliabilitas tesnya adalah 9.431. 


Contoh 3.8 

Misalnya terdapat 5 butir soal bentuk uraian yang diujicobakan kepada 8 
siswa dengan data sebagai berikut. 


Tabel 3.8. Sebara): Skor dari 8 Peserta Ji •.» 
pada 5 Butir Soai Uraian 


1 

Nama 

Nomor Butir Soal 

No 

Siswa 

1 

2 

3 

4 

5 

1 

Aa 

9 

8 

9 

7 

5 

2 

Bb 

8 

8 

8 

7 

6 

3 

Cc 

7 

8 

8 

6 

7 

4 

Dd 

6 

6 

7 

8 

8 

5 

Ee 

5 

6 

8 

4 

7 

6 

Ff. 

4 

5 

8 

3 

6 

7 

Gg 

3 

5 

7 

2 

5 

8 

Hh 

3 

4 

8 

2 

6 


Jawab: 

Lebih dulu dihitung skor totalnya, variansi masing-masing butir, dan 
variansi skor totalnya, sehingga diperoleh tabel kerja seperti pada Tabel 3.9. 

Berdasarkan bilangan-bilangan pada Tabel 3.9, diperoleh koefi¬ 
sien reliabitas berdasar rumus Cronbach-Alpha sebagai berikut. 


r i r 


i—1 


M 


.T. 


19.996 ' 
42.4 1 1 j 


= 0,740 


Berarti koefisien reliabilitas tes tersebut adalah 0,740. 
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Tabel 3.9. Tubei Kena untuk Menghitung Koefisien Reliabihtas 


No 

Nama 

...... : ----t 

Skor Butir j 

Skor | 
Total j 



1 

, 3 1 4 i 3 i 

1 

Aa ! s» 

h 

2 i _ 1 i 5 — l 

38 

2 

Bb 

8 

8 

* | 7 __j 

6 

37 

3 

Cc 

7 

8 

8 6 

7 

36 

4 

Dd 

6 

6 

7 j 8 

8 

35 

5 

------ 

Ee 5 

6 

_ L_L_i— 


30 

P6 

Ff -i 


8 1 3 : 6 

! 26 

*-——1 

i y 

G 2 ' 

-Z p 2 . 5 

i ■> j 

r-- 

f"... - . • , \ , ''.6 

! o 1 


_!__——— -i- ~~~i t "i 

Variansi Butir 513 ; 2 .30 j 0.411 j 5.8 A) ; 1 -07 j j s t ~ 


Jumlah . 

Vr = u.oafs 

i 42.41 l i 

i i 

i i 

Variansi Bulir j 

i=l 

_J_1 


Metode Tes Ulang 33 *^ V . ^ 

Metode ini disebut juga test-re-test meihod. Pada metode mi dilaku¬ 
kan pengukuran kepada sekelompok subjek dua kali dengan alat pengukur 
yang^sama datam waktu yang hampir bersamaan. Koefisien rebab.Utasnya 
dihitung dengan mencari koefisien korelasi antara has.l pengukuran yan c 
yang kedua. Rumus yang dipakai W.sanya adaiah rumus 

korelasi momen produk dari Kari Pearson. 

Asumsi yang dipakai pada metode ini ialah tidak ada penambahan 
dan/atau pengurangan kemampuan peserta tes ^ Pe.aksana^ua kab es 
tersebut dalam kondisi psikologis yang sama. Misalnya P^“ ; 

pada hari pertama dalam suasana yang menyenangkan dan pelaksanaan te. 
pada hari &ua dalam suasana yang menegangkan, -ka ,tuas. sepert, m, 
tidak menguntungkan untuk mengestimasi koefisien reliabihtas tes. 

Misalnva ingin dicari koefisien reliabilitas dari tes A. Maka tes A 
tersebut diberikan kepada sekelompok siswa dua kab. misalnya hanm. c at 
besok pagi Misalnva X adalah skor tes A pada han >n> dan Y adalah sko. 
"es A pada besok pagi. Maka koefisien reliabibtasnya dicar, dengan rumus 

berikut: 


m =-■ 


nIXY-(IX)(IY) 


7^IX 2 -(Ix3KnIY 2 -(IY) 2 ) 
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dengan r ;l adalah koefisien reliabiltas. X adalah skor tes A pada hari perta¬ 
ma dan Y adalah skor tes A kedua. 


Contoh 3.7 

Misalnya sebuah tes diberikan kepada 10 siswa dua kali, yaitu pada 15 April 
2014 dan 16 April 2014. Skor (total) mereka tampak pada Tabel 3.10. 
Lakukan estimasi koefisien reliabilitas tes tersebut dengan menggunakan 
metode tes ulang. 


Tabel 3.10. Skor 10 Siswa pada Ujian 15 dan 16 April 20 


1 Nu 

Nama Siswa 

Skoi Tcl 15-04-24 

SkorTai i 0-04- 12 

1 “ 

Kk 

68 

70 


1“ L! 

7"; 

■ - 

i 3 

Mm 

45 

46 

I t 

- 

Nn 

90 

•>: 

5 

Oo 

86 

85 

6 

pp 

75 

78 

7 

Qq 

84 

80 

8 

Rr 

85 

95 

9 

Ss 

34 

36 

10 

Tt 

46 

47 


Jawab: 

Untuk mengestimasi koefisien reliabilitasnva diasumsikan skor tanggal 15 
April 2014 sebagai X dan skor pada 16 April 2014 sebagai Y. Dibuat tabel 
kerja sebagai berikut. 


Tabel 3.1 J. Tabel Kerja untuk Mencari Koefisien Reliabilitas 


No 

X 

Y 

—jji 

-yj- 

XY 

I 

68 

70 

4624 

4900 

4760 

2 

73 

72 

5329 

5184 

5256 

3 

45 

46 

2025 

2116 

2070 1 

4 

90 

92 

8100 

8464 

8280 

5 

86 

85 

7396 

7225 

7310 

6 

75 

78 

5625 

6084 

5850 

7 

84 

80 

7056 

6400 

6720 

8 

85 

95 

7225 

9025 

8075 

9 

34 

36 

1156 

1296 

*] 224 

10 

46 

47 

2116 

2209 

2162 

Jumlah 

X*= 

XY = 

X * 2 = 

Zy 2 = 

XXY = 


686 

701 

50652 

52903 

51707 
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nyXY -(SXKlV) 

rW = J(nIX 2 - ( SX) 2 >(nVY--,IY^T 
(10X51701 -1686x701) 

~ y[{ (10)(506S) - 686 2 1 {(10X5 2903 - 701 2 ) 

- 36184 — no« 

^/(35924)0629) 

Jadi koefisien reliabikitas tes tersebut adalah 0.98. 


Mei ode Bemuk Paralel I Sejajar, -(d'lUtaW, Jcc.pl \<t5JtUtt«0(»kt 

Metode ini disebut juga ,xm,Hel-f.mn nuihod. eqmvalent medwd. 7 


equiva!ent methoj?^ 


atau ahemate ion,n. Pada metode ini. dibuai dua buah instrumen yang 
paralel. Untuk menentukan reliabilitasnya. maka kedua instrumen tersebut 
diberikan kepada sekelompok subjek secara berturut-turut Kemudian hasil 
pencukuran dari instrumen tersebut dicari koetisien korelasinya. Koehsien 
korelasi tersebut sekaligus menentukan koefisien rel.abilitas instrumen. 
Rumus yang biasanya digunakan adalah rumus korelasi momen produk dar. 

Kari Pearson. 

Misalnya ingin dicari koefisien reliabilitas dari tes A. Maka dibuat tes 
B (yang berbeda dengan tes A) yang paralel dengan tes A. Dua tes diberi¬ 
kan kepada sekelompok siswa secara berurutan. Misalnya X adalah skor tes 
A dan Y adalah skor tes B. Maka koefisien reliabilitasnya dicari dengan ru- 

mus berikut: 


r Il 


nIXY-(IX)(IY) 


J(nIX 2 


-(XX) 2 )(nXY 2 


(XY) 2 ) 


dengan rj j adalah koefisien reliabiltas, X adalah skor tes A, dan Y adalah 
skor tes B. 

Metode ini sebenarnya berlandaskan pada pendefinisian koefisien 
reliabilitas yang dibicarakan di Bab II Namun demikian, metode mi jarang 
dipakai, karena orang harus membuat dua tes paralel yang pada praktiknya 
tidak mudah dilakukan. 


Reliabilitas Antarpenilai (Inter-Rater Relir-bility) 

Jika skoring suatu penilaian sangat bersandar kepada subjektivitas 
penilai (misanya pada tes kineija atau tes pada ranah psikomotor, atau pada 
tes bentuk uraian), maka reliabilitas antar-pen.la. perlu dipertimbangkan 
untuk digunakan. Ada dua cara untuk mencari koefisien reliabilitas buda- 
sarkan reliabilitas antarpenilai tersebut. Cara pertama adalah dengan men- 
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cari koefisien korelasi antar nilai yang diberikan oleh dua penilai. Cara 
kedua adalah dengan melihat berapa persen kesesuaian yang diberikan oleh 
dua penilai (dalam arti dua penilai keduanya memberikan nilai atau skor 
yang sama). 

Contoh 3.8 

Misalnya terdapat 10 siswa yang diminta untuk membuat puisi. Dua orang 
penilai yang saling independen (penilai X dan penilai Y) diminta menilai 
puisi kesepuluh siswa tersebut berdasarkan rubrik yang diberikan, mulai 
dari 1 sampai dengan 5, dengan 1 = sangat jelek dan 5 = sangat baik. Nilai 
yang diberikan adalah sebagai berikut. 


label 3.12. Nilai Dua Penilai terhadap 10 Siswa dalam Membuat Puisi 


■ Nama 

! Nilai anak ke- 

Penilai 

i j 

4 

5 

,6 j 7 j 8 j 9 | K) 

Penilai X 

r ~7~; 5 ; 3 

4 

5 

14 3 2.3 4, 

r Penilai Y 

3 ! 4 ! 3 

5 

4 

5 ! 3 | 3 j 5 | 4 | 


Cara Pertama: 

Dicari koefisien korelasi antara nilai dari penilai X dan nilai dari penilai Y 
sebagai berikut. Diperoleh: 

£x = 37;£Y = 38;XX 2 =145;X Y2; = | 5 4 ; dan £ XY = l 44 , 


Cara Kedua: 

Banyaknya penilaian yang cocok antara penilai 1 dan penilai 2 ada 
2 buah (yaitu ketika menilai siswa ke-3 dan ke-10). Banyaknya siswa 
yang dinilai seluruhnya ada 10 siswa. Jadi, koefisien reliabilitas 

antar-penilai adalah ru=~ = 0,200 


hingga diperoleh# 
r ll 


nZXY-(ZX)(ZY) 


V(”XX 2 -(ZX) 2 )( nZY 2 -(X Y) 2 ) 
(10)( 144> (37)(38) 


a /{(10)(145>37 2 }{(10)(154)-38 2 } 

-j=M -= 0,385 

#0(96)_ 


Jadi koefisien reliabilitasnya adalah 0,385. 
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Kadang-kadang dimodifikasi dengan memperkenankan adanya 
selisih 1. artinva penilaian masih dianggap cocok atau sesuai, wa¬ 
laupun selisih'antara nilai yang diberikan penilai sama dengan 1. 
Misalnya, penilaian pada siswa ke-1 dianggap sesuai, walaupun 
penilai X memberi nilai 4 dan penilai Y memberi nilai 3. Hanya 
penilaian siswa ke-9 sajalah yang dianggap tidak cocok (penilai X 
memberi nilai 3 dan penilai Y memberi nilai 5). sehingga koefisien 

reliabiliias antarpenilainya adalah: r n = ^ = 0,900. 


PENAFSIRAN KOEFISIEN RELIABILITAS 

Beberapa rumus koefisien reliabiliias instrumen dikembangkan dan 
rumus koefisien korelasi momen produk dan Kari Pearson. misalnya pada 
metode bentuk tes ulang maupun tes paralel. 

Setelah koefisien reliabiliias instrumen diperoleh, tidak tergantung 
kepada metode mana yang dipilih, lalu diadakan penafsiran terhadap koe¬ 
fisien reliabilitas tersebut untuk menentukan rehabel atau tidaknya tes yang 
dipersoalkan 8 . 

Seperti telah diuraikan pada Bab II, pada umumnya, suatu instrumen 
dikatakan reliabel apabila koefisien reliabilitasnya 0,70 atau lebih 
(r,, >0,70).. Ini berarti, hasil pengukuran yang mempunyai koefisien relia¬ 
bilitas sebesar 0,70 atau lebih cukup baik nilai kemanfaatannya, dalam arti 
instrumennya dapat dipakai untuk melakukan pengukuran. 

Pada beberapa buku, untuk melihat apakah suatu instrumen reliabel 
atau tidak, dilakukan hal-hal berikut. Setelah diperoleh koefisien relia¬ 
bilitas, kemudian dilakukan uji signifikansi pada tingkat signifikansi terten¬ 
tu (misalnya 5%) dengan melakukan uji statistik terhadap koefisien reli - 
bilitas yang diperoleh dengan uji t atau dengan membandingkan tabel r 
Cara ini ,4* iepa. dengan beberapa alasan. Penruna. menentukan reliabel 
atau tidaknya suatu instrumen pada dasarnya bukan uji signifikansi. Kedua, 
sionifikan tidaknya suatu uji sangat tergantung kepada nilai n (banyaknya 
peserta tes). Jika n sangat besar, nilai r yang kecil pun akan signifikan. 

Jadi, untuk menentukan apakah instrumen itu reliabel atau tidak maka 
yann dilihat adalah besarnya nilai koefisien rehabiltasnya dilihat dan segi 
kemanfaatannya, bukan signifikan atau tidaknya koefisien reliabiliias terse¬ 
but Sekalipun koefisien reliabilitas tersebut signifikan, tetapi kalau mlai- 


• Penafsiran kepada koefisien reliabiliias dilakukan berbeda menurut beberapaahli dan 
beberapa buku. Namun demikian, menurut penulis, penafsiran dengan melakukan uj. 
signifikansi terhadap koefisien reliabiliias itu tidaklah tepat. 
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nya kecil, maka koefisien reiiab.luas tersebut tidak bermakna untuk meng¬ 
gambarkan apakah instrumennya reliabel atau tidak. 

FAKTOR-FAKTOR YANG \IEMPENGARl ! HI RELIABILITAS 

Ada beberapa faktor vana mempengaruni koefisien reliabiluas dari 


(a) panjang Tes^Pa^umJnaya jemaki npdnj ang jesjdalan^^ 

/butirnya semaktTtonyaiaJgmakii t tin g gi ,koef i^en_rejiabihiasnyia. Hal 
mTcfisebabkan tes yang cacah butirnya banyak akan memuat cukup 
banyak tingkah laku yang diukur. Secara matematis, kebenaran pcnda- 
pat ini dapat dibuktikan dengan menggunakan rumus Spearman-Bmw n 
yang telah ditulis di Bab II. 

Dalam konteks ini. maka tes bentuk tuaian <>ailg biasanya tav.au 
butirnya sedikit' cenderung mempunyai koefisien rehablitas yang 
rendah. Di sisi lain, tes bentuk pilihan ganda t yang biasanya cacah bu¬ 
tirnya banyak, sekitar 40 butir) cenderung mempunyai koetisien relia- 

@ bilitas yang tinggi. 

Penyebaran Skor. Koefisien reliabiluas dipengaruhi oleh penyebaran 
skor. Makin leh^r penye baran sk or (dalam arti makln hesat variansi 
nya) makin tinggi k oefisie n reliabilitasnya. Hal ini disebabkan koeh- 
'^sierk7eliabilitas akan semakin unggrapabi la individu-individu cende¬ 
rung tetap pada kedudukan relatifnya terhadap kelompoknya. 

Dalam kaitannya dengan tingkat kesulitan, makin mendekat nilai 
tingkat kesulitan butir ke bilangan 0,5 (yang berani penyebaran skor 
totalnya semakin besar), maka koefisien reliablitas tesnya semakin 

/r-v tinggi. 

(c) Vingkat Kesulitan Tes. Seperti yang telah disebutkan pada Bagian (b), 
'tes yang terlalu sulit atau terlalu mudah cenderung menurunkan koefi¬ 
sien reliabilitas. Hal ini disebabkan tes yang terlalu sulit atau terlalu 
mudah menghasilkan sebaran yang terbatas dan terkumpul di ujung 
bawah atau di ujung atas. Dengan alasan ini pula, maka butir soal yang 
baik dari sisi tingkat kesulitan, adalah butir soal yang tingkat kesulitan¬ 
nya berada di sekitar setengah. 

(d)yObjektivitas. Objektivitas suatu tes menunjukk an seberapa JaulLlhiiL. 
/orang yane mempun yai kema mpua n v ai- uTsama mendapatkan -k oi 
"yang samrTpula. Dalam hal ini, skor yang diperoleh oleh subjek yang 
'Hikehai tes~titfcrtr dipengaruhi oleh kepuiusan dan perasaan orang yang 
menentukan skor. Tes yang objektivitasnya tinggi cenderung mempu¬ 
nyai koefisien reliabilitas yang tinggi pula. 
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Pada konteks ini. dari sisi penvekoran. tes bentuk uraian cende¬ 
rung tidak objektif, sedangkan tes bentuk pilihan ganda cenderung 
objektif. Oleh karena itu, tes bentuk uraian cenderung mempunyai 
koefisien reliabilitas rendah, dan tes bentuk pilihan ganda cenderung 
mempunyai koefisien reliabilitas tinggi 


BAHAN DISKUSI 

I Misalnya Anda membuat tes dalam kaitannya dengan pembuatan 
skripsi atau tesis (berarti Anda adalah peneliti dalam hal ini). Vanabel 
terikatnya adalah prestasi belajar Pokok Bahasan Persamaan dan 
Pertidaksamaan Kuadiat. Adu 25 butir tes yang Anda vahdas.kan ke 
pakar (berarti Anda melakukan validitas isu. Setelah divalidasi oleh 
pakar, ternyata ada 5 butir yang harus digugurkan karena tidak 
memenuhi kriteria penelaahan tertentu. Benarkah undakan validamr 
menggugurkan lima butir Anda pada kegiatan validasi ahli .* Mengapa. 


2 Seorang peneliti ingin menghitung koefisien validitas tes masuk 
perguruan tinggi. Sebagai kriteria untuk menentukan validitas tes 
tersebut adalah lama studi mahasiswa (dalam satuan tahun). Da¬ 
tanya adalah sebagai berikut. 


Tabel 3.13. Skor Tes Masuk dan Lama Kelulusan 10 Mahasiswa 


No 

Nama Mhsw 

Skor Tes Masuk 

Lama (dalam tahun) 

1 

Aa 

45 

2,5 

2 

Bb 

65 

3,5 

3 

Cc 

85 

4,5 

4 1 

Dd 

65 

3.0 

5 

Ee 

75 

4.0 

6 

Ff 

60 

3.0 

7 

Gg 

55 

2,5 

8 

p-— 

Hh 

45 

2.0 

9 

li 

75 

3.5 

10 

Ji_ 

95 

LL_. 4 - 5 


a. Hitunglah koefisien validitasnya. <0 

b. Berdasarkan perhitungan pada (a), validkah tes masuk tersebut/ 

Mengapa? ^ R 

tea»o ° j- e>/o S' 

0 y £) t gx\’ Hv> - 
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3. Berikut ini adalah sebaran 10 peserta tes yang mengikuti te> dengan 20 
butir tes (nomor 1 sampai dengan 20). 

Tabel 3.14. Skor Sepuluh Mahasisw a unuk 20 Butir Soal 


8 

o 

T 

G 

J 

G 

3 

7 


P 

a. Hitunglah koefisien reliabilitas tes tersebut dengan menggunakan 
teknik belah dua dengan menganggap butir-butir soal nomor 1 sampai 
dengan 10. sebagai belahan pertama dan butir-butir soal nomor 1 1 sam¬ 
pai dengan 20 sebagai belahan kedua. 

b. Hitunglah koefisien reliabilitas tes tersebut dengan menggunakan 
teknik belah dua dengan menganggap butir-butir soal bernomor gasal 
sebagai belahan pertama dan butir-butir soal bernomor genap sebagai 
belahan kedua. 



Nomor Butir Soal i 

No 

1 

n 
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4. Diketahui data seperti pada Soal Nomor 3. 

a. Hitunglah koefisien reliabilitas tes tersebut dengan menggunakan 
rumus Cronbach-Alpha dengan menganggap, butir.-b.utir soal nomor 
1 sampai dengan 10 sebagai belahan pertama dan butir-butir soal 
nomor 11 sampai dengan 20 sebagai belahan kedua. 

b. Hitunglah koefisien reliabilitas tes tersebut dengan menggunakan 
rumus Cronbach-Alpha den^aa^jrienganggap tes tersebut terdiri 
dari 20 belahan (yang berani masing-masing belahan hanya terdiri 
dari satu butir soal). 
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5 Misalnva terdapat 5 butir soal bentuk uraian yang diujtcobakan kepada 
8 siswa dengan data seperti pada Tabel 3.15. 


Tubei -T /5. Skor S Mahasiswa unuk 5 Bulir Soal Uraian 


No ! Nama Siswa 

Nomor Butir Soal 

1 

2 

3 

4 

5 

1 ! Aa 

9 

8 

9 

7 

5 

: 2 , Bb : 8 

8 

8 

7 

6 ' 

| 3 ; Cc 

7 

8 

8 

6 

7 

! 4 : Dc 

6 

6 

~ 

8 

8 1 

| 5 . K 

6 1 8 

4 

7 ! 

1 f> H : 4 

5 j * 

3 

6 ! 

---i 

! 1 3 

5 T" 1 

j 2 

5 ! 

s ' Hh : ? 

: 4 j 8 

| 2 

L. 6 J 


a. Jika dapat, hitunglah koefisien reliabilitas tersebut dengan rumus 
Croncbach-Alpa! 

b. Jika dapat, hitunglah koefisien reliabilitas tersebut dengan rumus 
KR-20. 

c. Hitunglah kesalahan baku pengukuranya. 

6. Berikut ini adalah sebaran jawaban sepuluh mahasiswa dalam menja¬ 
wab 20 butir soal pilihan ganda dengan lima pilihan jawaban. 


Tabel 3.16. Skor 10 Mahasiswa unuk 20 Butir Soal Pilihan Ganda 
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Keterangan: K J = kunci jawaban 
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a. Carilah koefisien reliabilitas tes tersebut dengan rumus KR-20! 

b. Hitunglah kesalahan baku pengukuran jika menggunakan rumus KR-20! 

c. Dapatkah koefisien reliabilitas tes tersebut dicari dengan rumur Cron- 
bach-Alpha? Mengapa? 

d. Dapatkah koefisien reliabilitas tes tersebut dicari degan teknik belah 
dua? Mengapa? 


Tabel 3.17. Kisi-kisi untuk Tes Pilihan Ganda 


1 No 

I 

! 

Pokok 

Bahas¬ 

an 

Indikator 

Taksonomi Bloom 
dan Nomor Soal 

c 2 

C 3 

C4. 

C5. C6 

• i 

Persama- 

i .l. Nk-rncioatkaii persamaan kuadrat 

L i i | 


an Kua- 

densan a = 1 dan b = 0 

i i 


drat 

1.2 Mcn>cicsuikan persamaan kuadrat 

4 i 




denean a = i dan v = 0 






13. Menyelesaikan persamaan kuadrat 

5. 6 





dengan a = I dan c = 0 






1 :4. Menyelesaikan persamaan kuadrat 

7. 8 





dengan a = 1 dan c i- 0 






1.5. Menyelesaikan persamaan kuadrat 

17. 





dengan a > I dan b = 0 

18 





1.6. Menyelesaikan persamaan kuadrat 

19, 





dengan a > 1 dan b # 0 

20 





1.7. Menyelesaikan persamaan kuadrat 

21. 





dengan a < 0 

22 





1.8. Menyelesaikan soal cerita daiam 


29 

30,31, 



bentuk persamaan kuadrat 



35 

2 

2. Perti- 

2.1. Menyelesaikan pertidakasamaan 

9, 




daksama 

kuadrat dengan a = 1 dan b = 0 

10 




-an Kua¬ 

2.2. Menyelesaikan pertidak-samaan 

11, 




drat 

kuadrat dengan a = 1 dan b ^ 0 

12 





2.3. Menyelesaikan perstidaksamaan 

13, 





kuadrat dengan a = 1 dan c = 0 

14 





2.4. Menyelesaikan persamaan kuadrat 

15. ! 





' dengan a = 1 dan e = 0 

• '16 





2.5. Menyelesaikan pertidaksamaan 

23. 





kuadrat dengan a > 1 dan b = 0 

24 





2.6. Menyelesaikan pertidaksamaan 

25. 





kuadrat dengan a > 1 dan b ^ 0 

; 26 





2.7. Menyelesaikan pertidaksamaan 

27. 





kuadrat dengan a < 0 

28 





1.8. Menyelesaikan soal cerita dalam 


32 

33,34 



bentuk pertidaksamaan kuadrat 
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7 Misalnva Anda adalah seorang mahasiswa yang sedang menulis skripsi 
atau tesis. Anda menguji cobakan tes pilihan ganda pada Pokok Bahas¬ 
an Persamaan Kuadrat dan Pertidaksamaan Kuadrat. Anda memerlukan 

25 butir untuk mencari data penelitian nantinya, sedangkan pada saat 

uji coba dilakukan uji coba dengan 35 bulir soal. Misalnya kisi-kisinya 
tampak seperti pada Tabel 3.17. Sebenarnya peneliti memerlukan 27 
butir soal. Mengapa uji cobanya dengan 35 butir soal. 


8. a. 


b. 


Misalnya Anda memerlukan 25 butir soal untuk mengukur suatu 
variabel terikat tertentu. Berapa butirkah yang Anda perlukan untuk 

Misalnva Anda memerlukan 25 butir soal untuk mengukur vaiabel 
terikat tertentu, lalu Anda mengujicobakan hanya dengan -3 utir 
soal juga. Apa kelebihan Jan kelemahan cara ini. 

y Perhatikan kisi-kisi pada Tabel 3.17. Buatlah lembar validasi uniuk 
memvalidasi kisi-kisi dan butir-butir tes yang terkait dengan kis.-k.si 
pada Soal Nomor 7. 

10 Misalnya Anda memerlukan 25 butir soal untuk mengukur variabel 
terikat tertentu. Kemudian Anda mengujicobakan 35 butir soal untuk 
menghindari kekurangan butir soal, karena ada kemungkinan ada butir- 
butir soal yang gugur (dibuang) ketika dianalisis setelah uji coba. 

a. Jika ternyata banyaknya butir soal yang baik adalah 30 butir. Anda 
menggunakan 25 butir atau 30 butir ? Mengapa? 

b. Jika°ternyata banyaknya butir soal yang baik adalah 20 butir. Anda 

menggunakan 20 butir atau 25 btutir? Mengapa? 

c. Jika ternyata banyaknya butir soal yang baik adalah 27 butir soa, 
yang Anda hitung koefisien reliabilitasnya yang 25 butir soal, 
27 butir soal, atau 30 butir soal yang diujicobakan? Mengapa? 

11. Perhatikan kembali kisi-kisi pada Tabel 3.12. Misalnya settap indikator 
hanya Anda sediakan satu butir soal. Apa kelebihan dan ke ema a 


12 Ada program komputer untuk melakukan analisis instrumen dan 
ifalisL butir soal, baik untuk soa! piligan ganda maupun 
dengan skala Likert (dengan alternatif jawaban SS, S, N, TS dan 717). 
Program itu namanya 1TEMAN. Pada program itu untuk mencari 

koefisien reliablitas instrumen yang dianalisis, N^MeSaw 

bach-Alpha (coba Anda lakukan analisis dengan TOM A N). Mengapa 
yang digunakan oleh ITEMAN adalah rumus Croncbah-Alpha. bukan 

KR-20?" 
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PENDAHULUAN 


Menurut Bloom, hasil belajar dapat dibedakan ke dalam tiga ranah 
(aspek, domain) yaitu hasil belajar ranah kognitif, ranah afektif, dan ranah 
psikomotor. 

Pada bab ini dibicarakan berbagai jenis tes untuk ranah kognitif. 


JENIS TES 

Menurut bentuk pertanyaannya, pada umumnya orang membedakan 
tes ke dalam dua kelompok, yaitu tes membangun-jawaban ( constructed- 
response ) dan tes memilih-jawaban ( selected-response ). Tes membangun- 
jawaban sering disebut dengan tes subjektif, sedangkan tes memilih-jawab¬ 
an sering disebut dengan tes objektif 1 . 

TES MEMBANGUN JAWABAN (CONSTRUCTED-RESPONSE TEST) 

Termasuk ke dalam tes membangun jawaban adalah tes uraian (essay 
test) dan tes jawaban singkat (short-answer test) 


TES URAIAN 

Dulu kala, ujian-ujian sering dilaksanakan secara lisan dan ujiannya 
disebut ujian lisan. Pada ujian lisan, baik soal maupun jawabannya 
disampaikan secara lisan. Sampai dengan tahun seribu-sembilan-rams- 


1 Literatur sekarang tidak menyebutnya sebagai tes objektif, sebab nama itu memberi arti 
bahwa tes di luar tes objektif tidaklah objektif. 
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luiuh puluhan. di perguruan linggi masih ,e,dapa. ma.a-ma.a kuliah pang 
diujikan secara lisan. Sampai sekarangpun, ujian skr.ps. ies,». dan diseriusi 
masih dilaksanakan dengan ujian lisan ( oral examination). 

Pada ujian lisan, kebanyakan pertanyaan yang diberikan penguji ada¬ 
lah iine construaed-response di mana siswa atau mahasiswa diminta untuk 
memberikan penjelasan mengenai sesuatu yang ditanyakan, kadang diser ai 
areumentasi yang mendukung jawaban itu. 

Seiring dengan banyaknya siswa dan/atau mahasiswa yang terus 
bertambah dan kemajuan teknologi (misalnya dalam penyediaan kertas dan 
percetakan) ujian lisan tidak lagi populer, sebab time-coswnm, dan berb a- 
n mahal Dari sisi teori pengukuran dan pengujian, ujian h<»n udak haik, 
'sehah udak menved.akan kondisi yang seragam bagi semua PC^itu tes 
Cara nemberian skornya juga merupakan permasalahan .ci^nd dle 
karena :iu. untuk ujian matakuliah. sekarang ini sudah jarang dilakukan 

ujian ii>an. 

Salah satu tes membangun-jawaban (constnicted tespons) a a a les 
uraian etsav tes,) 2 . Pada tipe ini, peserta tes diharapkan merumuskan 
jawaban sendiri dengan kata-kata sendiri. Jawaban '^ ^ ^aian dapa. 
berupa jawaban pendek atau jawaban panjang, tergantung dan arah dan 
cakupan yang dikehendaki oleh butir tes. Jents tes ini biasanya memuat 
permasalahan 8 yang menuntut peserta tes untuk mengorganisir dan meru¬ 
muskan jawabannya dengan menggunakan kata-kata, ide, dan/atau pemikir¬ 
annya sendiri berdasar latar belakang pengetahuan yang dimilikinya. 

Hal yang perlu diperhatikan dalam penyusunan soal tipe mi adalah 
bahwa rumusan permasalahannya hendaknya cukup jelas sehingga setiap 
peserta tes dapat menangkap permasalahannya dengan tepat seperti ap 
yang dimaksudkan oleh pembuat soal. 

Untuk memperoleh tes uraian yang baik, perlu diperhatikan hal-hal 
berikut (Reynolds, Livingstode, dan Willson, 2010: 229-230). 

1 Tulislah butir soalnya dalam kalimat yang jelas dan langsung c ear 
™ J, Termasuk dalam hal ini adalah sehampa panjang 

jawaban yang diharapkan imisalnya dai™ 200 kala, J " 'J? >ko 
vana diberikan kepada butir soal itu (misalnya skornya 15 dan 100). 

2. Perhatikan benar-benar lama waktu yang diberikan tepa*. peserta^ tes 
untuk menjawab seluruh butir soal yang diberikan. Kebanyakan c ur 
. under-estimated kepada lama waktu yang diberikan. Guru mengira sis¬ 
wanya dapat menyelesaikan seluruh butir soal dalam waktu 90 menit. 


T^^-^enyebu, ,es uraian sebagai “ «"3 

— a ~- 

, uk an oleh pemeriksanya, bukan oleh kualilas jawaban peserta tes. 
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misalnya, pada hal siswa yang pandai pun belum tentu dapat me¬ 
nyelesaikan seluruh butir soal dalam waktu 90 menit. Kalau perlu, 
pembuat soal mencoba mengerjakan seluruh butir soal yang ada. lalu 
menambahkan 25%nya untuk siswanya, karena siswa memerlukan 
uaktu untuk membaca butir »uu! dan memerlukan waktu umuk meng¬ 
organisir jawaban. 

3. Jangan memperbolehkan siswa memilih butir soal yang dikehendaki. 
Beberapa penguji memberikan perintah soal seperti: “Kerjakan 4 soal 
dari 5 soal yang disediakan '. Perintah soal seperti ini seharusnya 
dihindari, karena siswa akan mengerjakan tes yang berlainan, dan ka¬ 
renanya tidak dapat diperbandingkan aniara kemampuan siswa yang 
satu dengan yang lainnya. Kecuali itu. -uruhan yang seperti im meng¬ 
ganggu validitas isi. 

4. Lebih baik diberikan butir soal pendek-pendek yang banyak aaiipada 
diberikan butir soal yang panjang tetapi sedikit. Hal ini disebabkan 
lebih banyak butir soal lebih reliabel dan lebih mewakili domainnya. 

5 Jangan menulis butir soal yang lebih tepat disajikan dalam bentuk lain 
(misalnya bentuk pilihan ganda). Kalau misalnya soalnya hanya untuk 
aspek ingatan, lebih baik disajikan dalam bentuk pilihan ganda diban¬ 
dingkan bentuk uraian. 

Keunggulan tes uraian, antara lain: (1) menghendaki pengorganisasi¬ 
an jawaban, sehingga pada tes uraian dapat dilihat jalan pikiran peserta tes, 

(2) jawaban disampaikan berdasarkan kata-kata dan tulisannya sendiri, 
sehingga dapat dilihat kejernihan jalan pikiran peserta tes, (3) mudah 
menyusun soalnya, dan (4) dapat membedakan secara jelas kemampuan 
masing-masing siswa. 

Di sisi lain, kelemahan tes uraian, antara lain: (1) bahan yang diliput 
terbatas, (2) waktu yang dipakai untuk menjawab soal tes uraian lama, 

(3) penilaian yang cenderung subjektif (cenderung dipengaruhi oleh penilai), 
dan (4) sukar dalam memberikan skor. 

Untuk mengurangi kelemahan penggunaan tes uraian, dalam meme¬ 
riksa tes uraian hendaknya diperhatikan hal-hal berikut. 

1. Tetapkanlah dengan tepat hal-hal atau iaktor-laktor yang diukur. Ke¬ 
mudian, penguji hendaknya hanya mengukur hal-hal atau Iaktor-laktor 
yang ditetapkannya tadi. 

2. Bacalah dulu beberapa contoh jawaban untuk mendapatkan gambaran 
umum mengenai kualitas seluruh peserta tes. 

3. Berdasarkan analisis pada langkah kedua, buatlah rubrik (kriteria 
pemberian skor) yang terkait dengan soal tersebut. Dalam membuat 
rubrik tersebut, penguji dianjurkan untuk membaca kembali catatan- 
catatan atau buku-buku yang dipakai sebagai referensi pembelajaran. 
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Termasuk dalam hal ini adalah menetapkan pokok-pokok penting yang 
harus ada untuk mendapatkan skor. 

4. Periksalah setiap butir soal dalam >atu waktu tertentu, artinya periksa¬ 
lah nomor butir soal yang sama untuk setiap s-.swa dalam satu waktu 
yang sama sebelum pemeriksaan nomor butir soal berikutnya. 

5. Sedapat mungkin periksalah jawaban-jawaban soal tanpa mengetahui 
siapa penjawabnva. 

6. Reliabilitas penilaian yang lebih besar diperoleh dengan jalan merata- 
ratakan skor yang diberikan oleh beberapa pemeriksa yang bekerja 
secara independen. 


Tipe Tes Uraian 

Tes uraian dana» uihedakan menjadi dua >aitn tes uraian bebas 
(cxt ended-response) dan (es uraian terbatas < n sncit u-n sinm^ 

Pada tes uraian bebas, peserta tes dapat dengan bebas menyatakan 
pendapat dan/atau penalarannya masing-masing. Boleh jadi, masing-masing 
peserta tes mengemukakan jawaban yang berbeda, walaupun mungkin 
sama-sama benarnya. Di sisi lain, pada tes uraian terbatas, jawaban siswa 
yang benar sudah dapat ditebak sebelumnya dengan variasi jawaban yang 
tidak banyak. Tes uraian untuk mata pelajaran Matematika, biasanya, 
termasuk ke dalam tes uraian terbatas. 

Contoh 4.1 

Berikut ini adalah contoh tes uraian bebas. . 

1. Jelaskan, bagaimanakah pendapat Anda mengenai kualitas pembelajaran 

matematika di sekolah dasar sekarang ini? 

2. Perlukah keterampilan menggunakan komputer diberikan kepada siswa-siswa 

sekolah dasar? Mengapa? Jelaskan pendapat Anda, . 

3. Manakah yang lebih tepat dilakukan pada siswa-siswa SMP, untuk mencari titik 
puncak suatu parabol. dengan menggambar grafiknya lebih dulu atau dengan 
menggunakan rumus? Jelaskan pendapat Anda. 

Pada tes uraian terbatas, walaupun jawaban dari peserta tes diurai 
menurut jalan pikiran masing-masing peserta tes. tetapi jawaban yang benar 
telah dapat diduga terlebih dulu. Jawaban yang benar dan masing-masing 
peserta tes relatif tidak berbeda, lebih-lebih untuk bidang eksakta. 


Contoh 4.2 

Berikut ini adalah tes uraian terbatas pada Matapelajarun Matematika. 

1. Dengan menggambar grafik fungsi kuadratnya terlebih dulu, selesaikan 

'j 

tidaksamaan x~-5x + 6>0! 


per 
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f 4 

Diketahui A = j ^ 

V" 

= C *. carilah p 


9 ! 


3p 


i. B= 1 


. dan C : 


10 8 'j 


1 i 


6p, : 


!. Jika A - B 


~*P 


^ „ Tes Uraia n ^lHbilitas dan validitas (isi) yang 

Cara F ens or* 0 mempunyai er j u d j bual cara penskoran 

Tes uraian cen ^jcurangan nu, . r j|< j tu se kaligus juga untuk 

rendah. Untuk menutup Keberadaan 

jbrik) >an je^ pendai- ya j tL1 rubrik holistik ( 

engurangi subjeKu r rubrik. D , ;i . 

c t a diu» j- . scorma nibru t. Rubrik 

Pada dasani>‘ . jk analitiK 1 ‘ J "‘ n • ierha dap pekerjaan, sedang 


holistik (holistic 
holistik 

x a H'in pekerjaan, sedanekan ru- 
, dan ^K.rul»" .=« J ' . J iannv; , B erikm ini 

"«"Mai ^ ;i 5 . 

brik analilik berdasatkan Uv . jl)J?!>l ode. dan 

adalah contoh dari Re> n 


toh 4.3. 

rikan butir soal berikut- . ^ Thursone dan Gardner. Berilah con- 

Bandingkan nf,od ® 1 dan persamaannya, 
toh dimana perbedaa 






74 


Budiyoncr. ?e*v$avJ:ar perulcUcw Haul 3eXajar 


Tabel 4.2. Contoh Rubrik Analirik 


---—- — ~ 1 Jelek J 

Bagian 1 t()i | 

; * i 

Rata- "i 
rata 

(11 

Bagus i Bagus | 
(^1 1 Sekali 

i (3) J 

r Siswa dapat menjelaskan model 
ThtifNtone densan baik 

. 

. 

. 

i 

Siswa dapat menjelaskan model 

Gardner dengan baik 

____ — 




'Siswa dapat menyebutkan perbedaan 





: Siswa dapat mcmbeii contoh-contoh 

i 

. 

i 

i——- 

i 

! Jawaban sangat baik, jernih. 

1 


i 


terorganisir. i'**c nunjukkan pengertian 
\;tnc mt‘Htl:il:nii ni^n^z cnai kedua model 


J uni lah S kor vany Diperoleh ; 


Untuk soal-soal yang sangat terstruktur, seperti pada ^ Pdajaran 
Matematika, jawaban yang benar sudah dapat dltebdk > *eh gg ‘P 
diberikan skor pada rubrik .tu jika peserta tes mengerjakan benar 

langkah pengerjaan. 

Contoh 4.4 

Diberikan soal berikut. 

watswsss 

adalah 18. Rerata sampel kelompok eksperm en ajajj denga^ |% o() 

Maka rubriknya dapal dibuat sebagai berikul. (Bilarrgan-brlarrean dr «eMah 
kanan merupakan skor untuk bagian itu. Jumlah skor adalah 50 j .1 
tes menjawab dengan sempurna) 

, H • U. = H- «rrn.il. kelompok eksperimen sama dengan rera.a kelompok kontroll 
‘ Hpil.V M- (rerata kelompok eksperimen tidak sama dengan rerata kelompok komr I) 


b. Statistik uji yang digunakan: t * 


(Xi -X2) 

IT 7~ 

P y n ] n 2 


- t(n, + n : - 2) 


5 
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c. Komputasi: 

2 _ (n| —1 )m + ( n 2 ~l)S2 (17,1(289) + (17)096) |() 

P n j + lio - 2 18+18-2 

>.= ,/24250 = 15.572 .5 

t„bs= — 108,1 98 ^ = 1.87 . 5 

15.572./— + — 

1/18 18 

d. Daerah Kritis: 

' 0.02 5 34 = 1-960; DK={l|l <-1.96 atau t > 1.96) ; . 5 

dan t ob . = 1.87 eDK . 5 

e. Keputusan Uji: H, , diterima. ... 

i. Kesimpulan: kelompok eskspcrimen dan kelompok kontrol sama pandainya. 

Jumlah Skor 50 


TES JAWABAN SINGKAT (SHORTANSWER TEST) 

Pada tes jawaban singkat, peserta tes diminta untuk memberikan ka¬ 
ta, frasa, bilangan, atau simbol untuk menjawab pertanyaan. Tes ini biasa¬ 
nya diberikan di sekolah dasar dan sekolah menengah pertama. Untuk ting¬ 
kat SM A dan yang sederajad ke atas, tes jawaban singkat ini jarang dipakai. 

Ada dua jenis tes jawaban singkat, yaitu: (1) dalam bentuk pertanya¬ 
an dan (2) dalam bentuk kalimat yang tidak lengkap. Bentuk kedua ini 
sering disebut bentuk isian singkat. 

Contoh 4.5 

Berikut ini contoh dalam bentuk pertanyaan. 

1. Berapakah bilangan prima terkecil?___ 

2. Siapa raja Majapahit pertama?_ 

Contoh 4.6 

Berikut ini contoh dalam bentuk kalimat yang tidak lengkap. 

1. Bilangan prima terkecil adalah___ 

2. Raja Majapahit pertama adalah___ 

TES MEMILIH JAWABAN (SELECTED RESPONSE TEST) 

Tes memilih-jawaban adalah tes yang menghendaki peserta tes 
untuk memilih di antara kemungkinan-kemungkinan jawaban yang telah 
disediakan. Tes ini sering disebut tes objektif. 
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Keunsaulan tes memilih-jawaban (selected-response), antara lain: 
(1) mudah, cepat, dan objektif dalam pemberian skor, (2) dapat mencakup 
bahan yang sangat luas. (?) kemungkinan jawaban yang salah dan y *" g 
benar dapat dengan mudah dilihat, dan t4) butir soal dengan ini dapat digu- 
nakan berulang kali. 

Di sisi lain, kelemahan tes memilih-jawaban ( selected-response ), 
antara lain: (1) sulit dipakai untuk mengukur aspek kemampuan tingkat 
tinggi, (2) memerlukan waktu yang lama dalam penyusunan soalnya 
(3) jawaban soal tes memilih jawaban dapat diterka, dan (4) tidak dapat 
membedakan secara jelas kemampuan masing-masing peserta tes. 

Berikut ini diberikan saran dalam mengkonstruksi tes memiiih- 
iawaban ii> usahakan aga. kesukaran membaca sesedikit mungkin, 
p, ianuan semata-mata hanva mengutip dan buku. (3) masing-masing butir 
soai’ harus saline independen, tidak saling mempermudah atau mempersulit 
butir soal yang lain. (4) jika menggunakan lambang-lambang atau simbol- 
simbol. hendaknya dijelaskan arti lambang-lambang atau simbol-simbol 
tersebut (5) dalam menulis soal matematika, hendaknya jangan mer.ga 
caukan antara bahasa matematika dan bahasa verbal, (6) hendaknya meng¬ 
gunakan kaidah-kaidah kebahasaan yang benar, dan (8) soal-soal yang telah 
selesai didraft, hendaknya direview lebih dulu. 

Tipe Tes Memilih-jawaban ( Selected-Response ) 

Secara garis besar, tes memilih-jawaban dapat dibedakan atas tiga 
jenis yaitu: (1) tes benar-salah, (2) tes menjodohkan, dan (3) tes pilihan 
ganda (mulnple choice test). Dari ketiga jenis itu, yang paling sering 
dipakai (terutama di tingkat SM A/SM K ke atas) adalah jenis tes pilihan 
ganda. Pada buku ini hanya didiskusikan jenis terakhir. 

TES PILIHAN GANDA 

Tes pilihan ganda dapat dibedakan atas 9 bentuk, yaitu bentuk: 
(1) melengkapi lima pilihan, (2) asosiasi dengan lima pilihan (3) hal kecuali, 
(4) analisis hubungan antar hal, (5) analisis kasus, (6) perbandingan kuan¬ 
titatif, (7) hubungan dinamik, (8) melengkapi berganda, dan (9) pemakaian 
gambar, diagram, dan/atau grafik. Dari berbagai bentuk itu yang paing 
sering dipakai adalah: (1) bentuk melengkapi lima pilihan, (2) bentuk 
analisis kasus, dan (3) bentuk melengkapi'berganda. 

Tes hentuk pilihan ganda terdiri dari batang tubuh yang berupa 
suatu pernyataan yang belum lengkap atau suatu pertanyaan yang dnkuu 
oleh sejumlah kemungkinan jawaban. Batang tubuh tadi se " ng ‘ 
pokok soal (stem). Kemungkinan jawaban disebut option. Optwn yang 
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merupakan jawaban yang benar disebut kunci (key) dan option-option vang 
bukan kunci jawaban disebut pengecoh (distraktor. umpan). 

Soal-soal bentuk pilihan ganda lebih fleksibel dan lebih elektit 
daripada bentuk-bentuk lain. Jika dikonstruksi dengan baik, soal bentuk 
pilihan ganda amat efektif untuk mengukur kemampuan menguraikan infor¬ 
masi, perbendaharaan kata-kata, aplikasi suatu konsep, atau kemampuan 
menginterpretasikan sesuatu. Kecuali itu, jika dikonstruksi dengan baik, 
soal pilihan ganda juga dapat mendiskriminasikan, menentukan pendapat, 
dan menarik kesimpulan. Satu-satunya kemampuan yang tidak dapat diukur 
dengan soal tipe pilihan ganda adalah kemampuan mengorganisir sesuatu. 

Mengkonstruksi tes pilihan ganda dengan baik sangat sukar dan 
memerlukan waktu lama. Tidak jarang pembuat soal hanya memasukkan 
hal-hal vang mudah-mudah saja, yaitu yang sekedar mengukur hal-hal yang 
bersifat pengetahuan (hafalan)'. 

Berikut mi diberikan beberapa saran jika tes bentuk pilihan ganda 
ingin digunakan. 

(1) Gunakan bahasa Indonesia yang efisien, baik, dan benar. Jangan mem¬ 
buat kalimat terlalu panjang yang dapat membingungkan peserta didik. 

(2) Berilah petunjuk pengerjaan yang singkat tetapi jelas. Petunjuk penger¬ 
jaan itu harus pula memuat cara memilih alternatif jawaban, misalnya 
dengan cara menyilang, melingkari, atau menghitami alternatif jawaban 
yang disediakan. 

(3) Alternatif jawaban disusun vertikal ke bawah (tidak ke samping). Hal 
ini untuk menjamin kenyamanan pandang dan untuk memudahkan para 
peserta tes untuk melakukan scanning. 

(4) Stem dan seluruh alternatif jawaban harus tercetak pada halaman yang 
sama. Hal ini untuk memudahkan peserta tes membaca butir soal ter¬ 
sebut. 

(5) Jika stem merupakan kalimat lengkap yang berupa pertanyaan, tidak 
perlu diberi tanda baca titik pada akhir alternatif. 

Contoh 4.7 

Siapakah presiden Rrepublik Indonesia yang pertama? 

a. Suharto 

b. Sukarno 
e. Megawati 

d. BTHabibie 

e. Joko Wido’do 


3 Hal ini lah yang sering dipakai oleh para pengritik tes pilihan ganda untuk mengumpat tes 
pilihan ganda. Pada pengritik tidak memahami bahwa kalau dikonstruksi dengan baik, tes 
pilihan ganda dapat mengukur kemampuan tingkat tinngi. 
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(6) Jika stem berupa kalimat yang belum lengkap, maka pada akh.r stem 
diiri «La baca tiga titik dan pada akh.r alterna.f jawaban haru» d,be¬ 
ri tanda baca titik atau tanda baca titiknya di letakkan pada akh.r stem. 

Contoh 4.8 

Presiden Republik Indonesia yang pertama adalah ... 

a. Suharto. 

b. Sukamo. 

c. Megawati. 

d. B .J. Habibie. 

^Perhat^Sbahwa hanya ada tiga t.tik pada akh.r Tidak boleh 

lebih dan tidak boleh pula kurang dan tiga titik) 


C ontoh 4.9 

Presiden Republik Indonesia yang pertama adalah 


a. 

b. 
e. 

d. 

e. 


Suharto 
Sukarno 
Megawati 
B. J. Habibie 
Joko Widodo 


(7) Jika pada alternatif jawaban memuat satuan ukuran, hendaknya satuan 
ukuran tersebut diletakkan pada stem. 

Su°.dg?p.ni.ng mempunyai ukuran p»« ,0 cm U.« W» *« ‘■u.s 

persegi panjang tersebut adalah ... cm . 

a. 16 

b. 32 

c. 60 

d. 120 

e. 136 

(8) Stem harus memuat informasi yang lengkap tetapi tidak 
menanyakan satu ide saja. 

Contoh 4.11 (kurang baik) 

Suharto .... 

a. presiden pertama Republik Indonesia 

b. lahir dan meninggal di Jakarta 

c. menikah setelah menjadi presiden 

* d. memerintah hanya satu periode (5 tahun) saja 

e menjabat gubernur sebelum menjadi presiden Hit-mvikan 

(On“h mi kurang baik karena knrang jela* rir apa yang Uuanyakan 
pada butir soal) 
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Contoh 4.12 (kurang baik > 

Terdapat beberapa skala pengukuran \ang digunakan dalam penelitian sosial. 
Manakah skala pengukuran yang mengakomodasi nilai nol mutlak? 

a. interval 

b. nominal 

c. ordinal 

d. rasio 

e. Iikert 

(Contoh ini kurang baik karena memuat kalimat pertama yang sebenar¬ 
nya tidak perlu) 

(9) Jika alternatif jawaban berupa bilangan-bilangan, urutkan mulai dari 
terkecil atau mulai dari terbesar. 

(10) Sediakan antara tiga sampai dengan lima alternatif jawaban Biasanvu. 
di tingkat SD dan SMP disediakan empat alternatif ja a aba»-, sedang¬ 
kan untuk SMA ke atas disediakan lima alternatif jawaban. 

(11) Jika alternatil jawaban berupa kalimat, sediakan kalimat-kalimat yang 
kira-kira sama panjang. 

Contoh 4.13 (kurang baik) 

Manakah yang merupakan sifat jajar genjang? 

a. mempunyai empat diagonal 

b. mempunyai paling sedikit dua sisi yang sejajar dan sama panjang 

c. diagonal saling tegak lurus 

d. ada dua sisi yang saling tegak lurus 

e. diagonal sama panjang 

(12) Dihindari menggunakan kata tidak. Jika terpaksa harus digunakan, 
tulislah kata tidak dengan huruf bes,ar (kapital). 

Contoh 4.14 

Di Pulau Jawa, propinsi manakah yang TIDAK mempunyai gunung berapi 
yang masih aktif? 
a. Jawa Timur 
h. Jawa Tengah 

c. Jawa Barat 

d. DIY 

e. Madura 


(13) Pastikan bahwa hanya ada satu jawaban yang benar atau jawaban yang 
paling lepat. 

(14) Jangan menggunakan alternatif jawaban “bukan salah satu di atas” atau 
“semua benar”. Penggunaan “bukan salah satu di atas" dan ‘semua 
benar sebagai alternatif jawaban menunjukkan bahwa pembuat soal 
tidak mempersiapkan pengecoh dengan baik. Jika terpaksa menggu- 
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nakan alternatif jawaban ”bukan salah satu di atas”, gunakanlah sese- 
kali saja (jarang-jarang). 

(15) Jangan memasang alternatif jawaban yang jelas-jelas salah atau jelas- 
jelas benar. 

(16) Jika terdapat gambar, diagani, grafik, dan semacamnya letakkanlah dt 
bagian kiri stem. Sebaiknya jangan meletakkan dt sebelah kanan siem. 

(17) Jika memuat bilangan desimal, buatlah dengan banyak angka d. bela- 
kang koma yang sama 

Contoh 4.15 (kurang baik) 

Panjang sisi suaiti ivi-cg, adalah 0.5 m. Luas persegi tersebut adalah m'. 

a. n.25 

b. 0.5 

c. 0.75 

d. LU 

e. 2.00 


Contoh 4.16 (lebih baik) ? 

Panjang sisi suaiu persegi adalah 0,5 m. Luas persegi tersebut adalah ... m". 

f. 0,25 

g. 0,50 

h. 0,75 

i. 1.00 

j. 2,00 

(18) Antara stem dan alternatif jawaban harus gayut (tersambung baik). 
Contoh 4.17 (kurang baik) 

Jika A adalah himpunan penyelesaian dari x - 5x + 6 — 0 maka A 

a. akar-akarnya adalah 2 dan 3 

b. akar-akarnya adalah -2 dan -3 

c. akar-akarnya adalah 1 dan 5 

d. akar-akarnya adalah -1 dan -5 

e. akar-akarnya adalah 6 dan 11 

(19) Butir soal tertentu jangan tergantung kepada butir soal yang lainnya. 

Contoh 4.18 

Misalnya terdapat dua butir soal (nomor 4 dan 5) berikut ini. 

4. Luas suaiu persegi adalah 36 cm 2 - Panjang sisi persegi itu adalah cm, 

3 . 3 

b. 4 

c. 5 

d. 6 

e. 18 
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5. Keliling persegi pada >oal Nomor 4 adalah ... cm. 

a. 12 

b. 16 

c. 20 

d. 24 

e. 72 

(Perhatikanlah bahwa jika seorang peserta tes menjawab salah butir soal 
nomor 4, maka dia pasti salah menjawab butir soal nomor 5) 

(20) Pengecoh harus disusun sama kuat daya tariknya. Untuk membuat 
pengecoh yang sama kuat daya tariknya, misalnya, dengan membuat 
semua pengecoh sama pan jangnya, sama jenisnya, dan semacamnya. 

i2l)Jangan menggunakan kata ‘selalu", “kadang-kadang", dan “tidak per¬ 
nah” pada alternatif jawaban. Alternatif jawaban yang diawali kata 
"selalu" atau "tidak pernah" cenderung bukan kunci jawaban. Alter¬ 
natif jawaban vang diawali dengan kata "kadang-kadang" cenderung 
merupakan kunci jawaban. 

(22) Kalimat-kalimat pada stew hendaknya dibuat pendek-pendek untuk 
memperjelas kalimat. 

(23>Karena alternatif jawaban harus disusun vertikal ke bawah, maka untuk 
menghemat kertas, buatlah susunan soal dalam dua kolom. 

(24) Perhatikan baik-baik banyaknya butir soal yang diujikan. Perkirakan 
seberapa lama peserta tes mengerjakan setiap butirnya. Biasanya, untuk 
soal-soal Matematika, setiap butir diperkirakan dapat diselesaikan 
dalam waktu 3 menit, dan untuk soal-soal ilmu pengetahuan sosial, 
setiap butir soal diperkirakan dapat diselesaikan dalam waktu 2 menit. 

(25) Dari sejumlah butir soal yang diujikan, susunlah mulai dari butir soal 
yang paling mudah (letakkanlah butir-butir yang mudah di awal-awal 
nomor) 

(26) Tempatkan secara random kunci jawaban. Artinya, kunci jawaban 
jangan diletakkan berpola, misalnya lima butir soal pertama kuncinya a, 
lima butir kedua kuncinya b, lima butir ketiga kuncinya c, dan 
seterusnya. 


Berikut ini beberapa contoh butir soal bentuk pilihan ganda dalam 
bentuk Melengkapi Lima Pilihan, Bentuk Analisis Kasus, Bentuk Meleng¬ 
kapi Berganda. 
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Bentuk Melengkapi Empat atau Lima Pilihan 

Bentuk ini adalah bentuk soal pilihan ganda yang banyak digunakan 
oran° Butir soal pada bentuk ini terdin dan pokok soal yang u . u 
empat auu iim- buah alternatif jawaban. Contoh-contoh 4.7 sampa, dengan 
4 18 di depa" adalah contoh butir soal pilihan ganda dalam bentuk 
mdengkapulm, pilihan. Un.uk siswa SD d.„ SMP biasanya hanya ada 
empat alternatif jawaban. 


Contoh 4. i 9 

Berikut ini adalah contoh dua 
pilihan. 


a butir soal dalam bentuk melengkapi empat 


Petunjuk: 


PihrUih >a!uh satu jawaban yang Anda anggap . , 

;,n kemungkinan jawaban yang benar dengan memberi landa s.luiV 

iemnai jawaban! 


benar di antara kemungkin- 


Luas bayangan A PQR dengan 
P{ l ,0), £>(6,0), dan R( 6,3) oleh 
transformasi yang sesuai dengan 


matriks 


satuan luas. 

a. 15 

b. 30 

c. 45 

d. 60 


Pernyataan (p-4q) vr bernilai 
salah, jika ... 

a. p salah, q salah, dan r benar 

b. p benar, q benar, dan r salah 

c. p salah, q salah, dan r salah 

d. p benar, q salah, dan r salah 


Bentuk Analisis Kasus . 

Butir soal yang dinyatakan dalam bentuk analisis kasus, dimulai dan 
semacam ceri a yang disebut kasus. Dari kasus ini dapat muncul beberapa 
5E3 >L S masing-masing bn, i, soal im biasanya berbenmk melengkap, 
empat atau lima pilihan. 


Contoh 4.20 

Berikut in, adalah butir-butir soal berbentuk analisis kasus pada mata 
pelajaran Matematika. 

Petunjuk: Kemudian, pilihlah salah satu jawaban yang 

r- kemungkinan-kemungkinan ,»»*.,» yang 

benar dengan memberi tanda silang pada lembar jawaban. 
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Amir dan Ani duduk pada kelas yang sama. Pada semester ini, ia menempuh 15 
mata pelajaran. Kemarin, mereka menerima buku rapor mereka. Nilai-nilai mereka 
tampak seperti berikut ini. 

Amir : 7. 9. 10. 7. 8. 8. 9. 8. 8. 8. 8, 6. 7, 8. 9 
Am : 8, 8, 8, 8. 9. 8. 9. 8. 7. 8. 8, 9. 8. 7. 7 


1. Rerata nilai Ani adalah ... . 

a. 5 

b. 6 

c. 7 

d. 8 

e. 9 


2. Jangkauan nilai Amir adalah ... . 

a. dua kali jangkauan nilai Ani 

b. satu lebihnya dari jangkauan nilai 
Ani 

c. sama dengan jangkauan nilai Ani 

d. sama dengan nol 

e. setengah kali jangkauan nilai Ani 


Bentuk Melengkapi Berganda 

Kalau pada bentuk melengkapi lima pilihan, hanya terdapat satu 
jawaban yang benar t atau paling tepat), pada bentuk ini terdapat beberapa 
jawaban yang benar, tetapi untuk menjawab butir soal tersebut, ada bebe¬ 
rapa kombinasi di antaranya. 


Contoh 4.21 

Berikut ini adalah contoh butir soal dalam bentuk melengkapi berganda. 


Petunjuk: 

Di bawah ini terdapat butir-butir soal yang mempunyai kejadian yang dapat 
muncul bersama-sama. Pada lembar jawaban, silanglah: 
a. jika hanya 1,2, dan 3 yang benar 


b. jika hanya 1 dan 3 yang benar 

c. jika hanya 2 dan 4 yang benar 

d. jika hanya 4 yang benar 

e. jika 1,2, 3. dan 4 benar 

i. Yang merupakan himpunan kosong 

adalah ... . 

1. Himpunan dari semua himpunan 

2. Himpunan bilangan genap yang 
habis dibagi dua 

3. Himpunan bilangan cacah yang 
kurang dari 10 

4. Himpunan yang anggotanya bi¬ 
langan asli yang terbesar 


'K 2 

2. Jika y - x' -f x + 5, maka ... . 

1. y(0) = 5 

2. yt i) = 7 

3. y(2)= 14 

4. y(3) = 41 
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TAKSONOMI BLOOM 

Seperti disebutkan di Pendahuluan, terdapat tiga ranah tujuan pem¬ 
belajaran. vaitu: (a) tujuan pada ranah kognitif, (b) tujuan pada ranah afe - 
ut, dan t,-'j tujuan pada ranah psikomotor. Tes has.l belajar, seharusnya 
mengukur kemampuan pada ketiga ranah tersebut. Namun demikian a 
mata-mata pelajaran tertentu yang yang lebih berat ke ranah tertentu. Ujian 
pada mata-pelajaran Matematika, misalnya, lebih bersifat mengukur 
kemampuan pada ranah kognitif daripada ranah psikomotor. Ujian praktik 
pada mata-pelajaran Seni Suara, lebih mengukur kemampuan di ranah 
psikomotor daripada ranah kognitil. 

Terdapat banyak penssolongan tujuan pembelajaran pada ranah 
koonilif. salah satu di antaranya adalah penggolongan tujuan pembelajaran 
berdasarkan taksonomi Bloom. Menurut Bloom. tujuan pembelajaran pada 
ranah kognitif pada dasarnya dapat dibedakan menjadi 6 tingkatan hierarkis, 
yaitu: (lj pengetahuan (knunltJ^. Cl), (2) pemahaman 
C2), (3) penerapan ( application, C3). (4) analisis ( analysis . C . 

( svnthesis, C5), dan (6) evaluasi {evaluation, C6). 

Aspek Pengetahuan 

Tujuan pembelajaran pada aspek pengetahuan berkenaan dengan 
ingatan bahan yang telah dipelajan, yang biasanya cenderung bersifat hafal¬ 
an Tujuan pada aspek ini telah tercapai apabila siswa sudah mampu 
menyebutkan kembali informasi yang telah diperolehnya. Tujuan pada aspek 
ini sudah dapat diungkap apabila siswa telah ingat dan dapat menyebutkan 
tentang: simbul, fakta, konsep, definisi, dalil, klasifikasi, terminologi dan 
semacamnya. 


Contoh 4.22 

Berikut ini adalah contoh butir soal pada aspek pengetahuan dalam 
bentuk melengkapi lima pilihan. 

Pilihlah salah satu jawaban yang Anda anggap benar di antara kemongkiMin- 
kemungkinan jawaban yang benar dengan memberi tanda silang pa 
jawaban! 
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1. Formula yang ditulis dalam 

o 2 2 • 

bentuk a~ + b = c disebut 

formula ... . 

a. Pythagoras 

b. Euler 

c. Archimides 

d. De’l Hospital 

e. Fibbonaci 


2. Lambang 4- adalah lambang 
w 5 

untuk ... . 

a. bilangan asli 

b. bilangan cacah 

c. pecahan 

d. bilangan kompleks 

e. bilangan bulat 


Aspek Pemahaman 

Tujuan pembelajaran pada aspek pemahaman berkenaan dengan 
kemampuan memahami arti suatu bahan pelajaran, namun dalam tingkatan 
yang rendah, misalnya mampu mengubah suatu informasi ke dalam infor¬ 
masi lain yang lebih bermakna dan memberikan suatu interpretasi. Perbu¬ 
atannya itu dilakukan atas suruhan tanpa ada kaitannya dengan yang lain. 
Juga tidak dituntut pemakaiannya dalam situasi yang lain. 

Menurut Bloom, tujuan pada aspek pemahaman dapat dibedakan 
menjadi tiga bagian, yaitu: (a) pengubahan ( translation ), (b) pemberian arti 
( interpretation ), dan (c) pemerkiraan ( extrapolation ). 

Contoh 4.23 

Berikut ini adalah contoh butir soal pada mata pelajaran Matematika aspek 
pemahaman dalam bentuk melengkapi lima pilihan. 


Pilihlah salah satu jawaban yang Anda anggap benar di antara kemungkinan- 
kemungkinan jawaban yang benar dengan memberi tanda silang pada lembar 
jawaban! 


1. Bilangan 10001 Qj ua dapat ditulis 
sebagai ... . 

a. 100010 

b. 48 

c. 45 

d. 42 

e. 34 


2. Himpunan penyelesaian dari 

"7 

x" — 4 = 0 adalah ... . 

a. 

b. {4} 
c- {2} 

d. {-2,2} 

e. {“4,4} 


Aspek Penerapan 

Tujuan pembelajaran pada aspek penerapan berkenaan dengan 
penggunaan ketentuan-ketentuan, prinsip-prinsip, dan/atau konsep-konsep 
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vang telah diterima siswa. Tujuan pada aspek ini telah tercapai jika-siswa 
telah dapat menggunakan apa yang telah diperolehnya dalam situasi khusus 
yang bL, baik yang masih terdapat dalam satu mata pelajaran maupun 
penggunaannya di mata pelajaran lain. 


Contoh 4.24 

Berikut ini adalah contoh butir soal untuk mata pelajaran Matematika pa a 
aspek penerapan. 


Pilihlah salah satu jawaban yang Anda anggap benar di'antarak«nungk.nan- 
kemungkinan jawaban yang benar dengan memberi tanda silang pada 
jawaban! 


j Aku adalah suatu 
bilangan. Jika aku 
dikalikan 7 dan kemudian 
ditambah dengan kuadrat 
aku, maka hasilnya adalah 
nol. Andaikan aku adalah 
bilangan bulat, maka aku 
adalah.... 

a. 0 

b. 7 

c. -7 

d. -7 atau 0 

e. 0 atau 7 


2. Misalnya terdapat papan catur raksasa. 
Seseorang meletakkan I butir jagung 
pada kotak ke-1 papan catur tersebut. 2 
butir jagung pada kotak ke-2, 4 butir 
jagung pada kotak ke-3, 8 butir jagung 
pada kotak ke-4, dan seterusnya dengan 
menggunakan aturan yang sama. 
Banyaknya butir jagung pada kotak 
terakhir papan catur tersebut adalah .... 

a. tak dapat dihitung 

b. 2 61 butir 

c. 2 62 butir 

d. 2 63 butir 

e. tak terhingga butir 


Aspek Analisis 

Tujuan pembelajaran pada aspek analisis ingin melihat apakah sis¬ 
wa telah dapat mengurai suatu sistem ke dalam bagian-bagiannya mencuri 
hubungan antara bagian-bagiannya, dan mengenal bagian-bagian itu sebaga 

satu sistem yang baru. 


Contoh 4.25 

Berikut ini adalah contoh butir soal untuk matapalajaran Matematika 
pada aspek analisis. 


Pilihlah salah satu jawaban yang Anda anggap benar di antara kem “ n S k "’“" r 
kemungkinan jawaban yang benar dengan member, tanda s.lang pada lembar 

jawaban! 
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i. Diketahui m dan n bilangan ganjil 

positif yang kurang daripada 5 dengan n 
< m. Bilangan genap positif terbesar 
yang dapat membagi bilangan dengan 

bentuk m~ — n~adalah .... 


2. Setiap biiangan ra>ional 
mempunyai invers 
perkalian, kecuali ... . 

a. 1 

b. 0 


a. 2 

b. 4 

c. 6 

d. 8 


c. ~ 1 


d. 2 


e. -2 


e. 10 


Aspek Sintesis 

Tujuan pembelajaran pada aspek sintesis ingin melihat apakah siswa 
telah dapat bekerja dengan bagian-bagian, elemen-elemen, atau un^ur-unsur 
untuk kemudian menyusunnya menjadi suatu sistem yang baru. Jadi, aspek 
sintesis berkaitan dengan kemampuan seseorang untuk menyusun sesuatu 
yang baru dari berbagai unsur, konsep, pola, aturan, dan sebagainya. Unsur- 
unsur yang telah ia miliki harus ia organisasikan untuk memperoleh sesuatu 
yang baru. 

Menulis soal dalam mata pelajaran tertentu, misalnya Matematika, 
pada aspek sintesis biasanya sangat sukar, karena sifat matematika yang 
bersifat terstruktur. Apalagi kalau bentuk butir soalnya adalah pilihan ganda. 

Contoh 4.26 

Berikut ini adalah contoh butir soal pada mata pelajaran Matematika pada 
aspek sintesis pada bentuk soal uraian. 

A. Kerjakan soal-soal berikut ini. 

1. Buktikan bahwa jumlah n bilangan ganjil yang pertama adalah n'. 

2. Tunjukkan bahwa A = {x | x 3 = I) adalah grup pada operasi perkalian. 


B. Pilihlah salah satu jawaban yang Anda anggap benar di antara kemungkinan- 
kemungkinan jawaban yang benar dengan memberi tanda silang pada lembar 
jawaban! 
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1. Jika A adalah himpunan 
penyelesaian dari 

x~ — 2x~ ■+■ x = 0 . maka 
banyaknya himpunan bagian A 
adalah ... . 

a. 0 

b. 1 


c. 2 

d. 4 

e. 8 


2. Jika p dan q adalah akar-akar dari 
x - - x - 12 = 0 dan p < q. maka 

q 

j v2\ r 4j(ix = .... 

P 

a. 28 

b. 30 
35 

d. 40 

t 2p^4q 


Aspek Evaluasi 

Tujuan pembelajaran pada aspek evaluasi telah dapat dicapai oleh 
siswa jika siswa telah mampu membuai kriteria, memberikan pertimbangan, 
mengkaji (kekeliruan, ketepatan, ketetapan), dan mampu menilai. Aspek 
evaluasi merupakan aspek kelompok kognitif tertinggi tingkatannya, sebab 
menyangkut semua aspek yang lain. 

Menulis butir soal dalam mata pelajaran tertentu, misalnya mata 
pelajaran Matematika, pada aspek evaiuasi biasanya juga sangat sukar 
Menulis butir soal untuk mengukur aspek evaluasi dengan bentuk pilih 
ganda juga sangat sukar. 


Contoh 4.27 

Berikut ini adalah contoh soal pada aspek evaluasi. 


Jawablah soal-soal berikut ini. 

1 Beberapa orans memulakan bahwa sistem desimal adalah sistem penulisan 
bilangan yane paling unggul dibandingkan dengan sistem yang lain, misalnya 
sistem penulisan bilangan dengan cara Romawi. Jelaskan mengapa orang ber- 

pendapat seperti itu! 

2. Dua dari banyak permasalahan di Kota besar adalah pe jcdukan pend uct u k dan 
kemacetan lalu lintas. Buatlah perencanaan kota yang dapat mengatas, kcma 
cetan lalu lintas, namun tetap nyaman bag. lingkungan padat pendudu . 

Jika kita membuat tes yang mengungkap aspek pengetahuan (Cl) 
dan pemahaman (C2) saja, berarti kita hanya ingin mengukur kemampuan 
tingkat rendah. Sebaliknya, jika kita membual tes yang mengungkap^ p 
penerapan (C3), analisis (C4), sintesis (C5). dan evaluasi (C6), maka be.aiti 
kita mengukur kemampuan tingkat tinggi (higher order thingkmg). 
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Perlu diketahui bahwa batas antara aspek yang satu dengan aspek 
yang lain tidak dapat dibuat definitif, sehingga kadang-kadang agak sukar 
membedakan ciri-ciri soal yang mengungkap masing-masing aspek. Juga 
tidak semua bentuk tes cocok untuk mengungkap tujuan di semua aspek. Tes 
pilihan ganda, misalnya agak sukar mengungkap tujuan-tujuan di aspek 
sintesis dan evaluasi, tetapi sangat mudah dipakai untuk mengungkap tujuan- 
tujuan di aspek pengetahuan, pemahaman, dan penerapan. 

TAKSONOMI BLOOM YANG DIREVISI 

Anderson dan Krathwol (2001: 67-68) mengemukakan bahwa 
dimensi dari proses kognitif dibedakan menjadi 6 tingkatan 4 , yaitu: (1) 
remember (mengingat). (2) understand (mengerti). (3) apply (menggu¬ 
nakan). (4) cmalysv ^menganalisis). (5) evaluatc (mengevaluasi), dan (6) 
create (membentuk). Penjelasan masing-masing tingkatan diuraikan secat a 
singkat berikut. 

Remember (Mengingat) 

Kegiatan pembelajaran disebut pada tingkatan remember (mengi¬ 
ngat) jika seseorang dapat retrieve relevant knowledge from long-term 
memory (mengungkap kembali pengetahuan yang relevan dari memori 
jangka panjang). 

Tingkatan ini terbagi menjadi: (1) recognizing , yaitu meng¬ 
identifikasi pengetahuan pada memori jangka panjang yang cocok dengan 
materi yang disajikan, misalnya mengidentifikasi hari-hari penting dalam 
sejarah kemerdekaan RI, dan (2) recalling , yaitu memanggil kembali 
pengetahuan dari memori jangka panjang, misalnya mengingat kembali 
peristiwa penting dalam sejarah kemerdekaan RI. 

Understand (Mengerti) 

Kegiatan pembelajaran disebut pada tingkatan understand (me¬ 
ngerti) jika seseorang dapat construct meaning from instructional messages, 
including oral, writen and graphic Communications (membentuk arti dari 
pesan pembelajaran, termasuk pembelajaran lisan, tertulis, atau memalui 
komunikasi gambar. 

Tingkatan ini terbagi menjadi: (1) interpreting (misalnya menyata¬ 
kan bentuk numerik ke bentuk verbal; menarasikan percakapan dari doku¬ 
men penting); (2) exempliying (memberi contoh atau ilustrasi khusus dari 


4 Taksonomi ini sering d i sebui revisian dari Taksonomi Bloom menurut Anderson dan 
Krathwol. 
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srntu konsep atau prinsip, misalnya memberi contoh berbagai model lukis- 
" "uU t3) cllssijyins (menentukan bahwa f suatu «rnmuk £»** 

termasuk suatu kelompok, misalnya mengklas.f.kas.kan k^us-kasus me 

, •. 'ummari-ing (menvimpulkan pomt-pomt penting dan suatu 

ide. objek, dan semacamnya); dan (7) explaimng i, 
akibai dari Miatu sistem). 


Apply < Menggunakan) 


kedutan pembelajaran disebut pada tingkatan menggunakan jika 

kan tugas tertentu yang belum familier). 


Analyze (Menganalisis) 

Kesiatan pembelajaran disebut pada tingkatan menganalisis jika 
seseorang Lpa. Z* —« - “ 

* pon, ,*«! » « (££ImbedSranba- 

SSS relevan^alau «J 

IStTlJi&V- r ^T’pa^uS 

a tt ribu ring (menentukan o/vie-w vajw.. 

materi vang dtsajikan, misalnya sebutkan pokok-pokok pcn t g 

penjara n e pada tul I sannya ddihat dari perspektif politik dewasa m.). 


Evaluate (Menilai) 

Kegiatan pembelajaran disebut pada tingkatan mendai pka^se- 
orang dapat make judgements based on *^jahan atau kekeliruan ' 

s=£SS£r:gE5E3 

^”p;S"Sir=; y n.«ndet«ks. apakah sna.u pioduk 
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konsisten dengan kriteria luar yang ditentukan, atau mendeteksi ketepatan 
suatu prosedur untuk permasalahan tertentu, misalnya menjustifikasi di 
antara dua metode, manakah yang paling baik untk menyelesaikan 
permasalahan yang ditentukan. 


Create (Membentuk) 

Kegiatan pembelajaran disebut pada tingkatan membentuk jika 
seseorang dapat put elements together to form a coherent or functional 
whole; reorganize elements into a new paneni or structure. Tingkatan ini 
terbagi menjadi: ( 1) generating (yaitu dapat menyebutkan hipotesis alternatif 
berdasar suatu kriteria), (2) planning (menciptakan suatu prosedur untuk 
mengerjakan tugas-tugas), dan (3) prodming f yaitu menciptakan >ebuah 
produk). 

LANGKAH-LANGKAH KONSTRUKSI TES HASIL BELAJAR PA¬ 
DA RANAH KOGNITIF 

Telah diketahui bahwa melakukan penilaian adalah kegiatan rutin 
seorang guru yang tidak dapat dipisahkan dari kegiatan belajar. Hasil 
penilaian itu sendiri sangat berguna untuk berbagai pengambilan keputusan 
mengenai siswa. 

Agar keputusan-keputusan yang diambil merupakan keputusan yang 
bijaksana maka informasi yang dikumpulkan harus benar-benar baik. Untuk 
memperoleh informasi yang baik, maka alat pengambil informasinya harus 
benar-benar baik. 

Secara garis besar, untuk menyusun tes yang baik, diperlukan 
langkah-langkah berikut: (1) menginventarisasi bahan yang telah diajarkan, 
(2) menyusun spesifikasi tes, (3) menyusun butir-butir soal beserta kunci- 
nya, (4) menelaah butir-butir tes, (5) melakukan uji coba, (6) melakukan 
analisis tes dan analisis butir soal berdasarkan hasil uji coba, (7) melakukan 
revisi terhadap butir-butir soal yang kurang baik, jika memungkinkan untuk 
melakukan uji coba lagi, (8) menetapkan instrumen (yang terdiri dari butir- 
butir yang baik), (9) melaksanakan pengukuran (pengujian) kepada subjek 
yang dikehendaki, dan (10)*menafsirkan hasil vang diperoleh. 


Penyusunan Spesifikasi Tes 

Penyusunan spesifikasi tes, biasanya, mencakup: penentuan tujuan, 
pembuatan kisi-kisi, pemilihan jenis tes, dan penentuan banyaknya butir 
pada setiap kompetensi dasar atau setiap indikator. Kisi-kisi tes, biasanya, 
ditampilkan dalam bentuk matriks yang menunjukkan isi pokok bahasan 
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(atau kompetensi dasar) yang akan diukur dan aspek tingkah laku yang akan 
diungkap. 

Untuk spesifikasi tes hasil belajar yang tidak memungkinkan adanya 
uji coba untuk memperoleh but.r-butir yang baik, kadang-kadang d.sertakan 
pula level tingkat kesulitan butir soal, apakah termasuk ke dalam kategon 
mudah, sedang, atau sukar. Beberapa pakar mengatakan bahwa kompos^ 
tingkat kesukaran perangkat tes adalah 25% mudah, 50% sedang, dan 25% 

sukar. 


Contoh 4.28 


Berikut ini adalah contoh kiM- 
ujian, misalnya ujian akhir 
kesulitan soal. 


K.M untuk tes bentuk pilihan ganda pada suatu 
nemester, yang menyertakan level tingkat 


Mata Pelajaran 
Tahun Ajaran 
Semester : 

Lama Ujian .. , . 

Banyaknya Butir Soal yang Diperlukan/Diujicobakan: 


No 

Pokok 

Bahasan/ 

Kompetensi 

Dasar/ 

Indikator 

Teniang Kemampuan dan 1 ingkat Kesulitan— 

Ba¬ 

nyak¬ 

nya 

Butir 

Soal 

Per¬ 

sen¬ 

tase 

Cl 

C2 

C3 

C4, 

C5, 

C6 

M 

u 

d 

a 

h 

S 

e 

d 

a 

n 

g 

S 

u 

k 

a 

r 

M 

u 

d 

a 

h 

S 

e 

d 

a 

n 

g 

.S 

u 

k 

a 

r 

M 

u 

d 

a 

h 

S 

e 

d 

a 

n 

g 

S 

u 

k 

a 

r 

M 

u 

d 

a 

h 

S 

e 

d 

a 

n 

g 

S 

u 

k 

a 

r 

1 
















2 
















3 














— 


4 
































N 














— 

-- 

Ban; 

yaknya Butir 















Persentase 






_ 




• 

— 
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Pada umumnya, kisi-kisi untuk soal tipe uraian lebih sederhana, 
karena pemilahan jenjang berpikir peserta tes menjadi Cl. C2. C3. C4. C5. 
dan C6 tidak perlu diberikan. 


Contoh 4.29 

Berikut ini adalah contoh kisi-kisi untuk tes bentuk uraian. 

Mata Pelajaran : 

Tahun Ajaran 
Semester : 

Lama Ujian 

Banyakina Butir Soai yang Diperlukan/Diujicobakan: 


No 

Pokok Bahasan/ 

Kompetensi Dasar/ 

Indikator 

Jenis Soal 

Banyak¬ 

nya 

Butir 

Soal 

Per¬ 

sen¬ 

tase 

7 7 

1 erbatas 

Bebas 

1 






2 






3 






4 












N 






Banyaknya Butir Soal 





Persentase 






Jika kisi-kisi dibuat untuk keperluan uji coba dalam suatu pene¬ 
litian. maka banyaknya butir soal yang akan dipakai untuk uji coba harus 
iebih banyak dibandingkan dengan banyaknya butir soal yang akan 
digunakan. Misalnya, untuk ujian dalam waktu 90 menit diperlukan 30 butir 
soal pilihan ganda. Maka untuk uji coba, diperlukan 35 40 butir soal 

dengan waktu uji coba 120 menit. 

Perlu pula diketahui bahwa ada perbedaan mendasar kisi-kisi untuk 
tes hasil belajar, misalnya pada ujian akhir semester, dengan kisi-kisi tes 
prestasi belajar untuk suatu penelitian. Untuk kepentingan penelitian diha¬ 
ruskan diperolehnya nilai yang menyebar menurut distribusi normal. Oleh 
karena itu, pada kisi-kisi tes untuk suatu penelitian, pembagian butir soal 
menjadi mudah, sedang, dan sukar menjadi tidak relevan Hal ini di sebab- 
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kan, agar diperoleh nilai yang menyebar, maka butir soal han J s 
sedang. Pemerolehan kategori sedang tersebut d.ketahu. setelah d.lakuka 

analisis butir soal setelah uji coba. 


Contoh 4.30 

Berikut ini adalah contoh kisi-kisi untuk tes bentuk pilihan ganda pada suatu 
uji coba penelitian. 

Nama Variabel : 

Lama Ujian 

Banyaknya Butir Soal yang Diujicobakan: 



Pokok Bahasan/ 
Kompetensi Dasar/ 

Jenis Kemampuan >ang : 

Diukur 

Banvak- ; 
nya ' 

Bulir 
Soal 

Pe> - 

sen ! 

la^c | 

! 

No 

Indikator 

Cl 

C2 

C 3 

C4. C5. C6 

1 








2 







__ 

3 








4 
















N 








Riint 

i/siknvfl Butir Soal 







r.v — —-- 

Persentase 





- — 

— 


BAHAN DISKUSI 

1 Ada orang yane membedakan tiga jenis kemampuan yang perlu diolah 
pada suatu pembelajaran, yaitu olah pikir, olah rasa, dan olah raga, pa 
kah menurut Anda taksonomi seperti itu menyerupai taksonomi Bloom. 

Mengapa? 


2. Buatlah kisi-kisi untuk membuat perangkat tes untuk se ' nesl ^ “' le ‘^ ^ 
SMP, SM A, atau SMK yang diujikan dalam waktu 120 menit dalan 
bentuk pilihan ganda melengkapi lima pilihan. 


3. 


a. 

b. 


Sebutkan hal-hal yang 
Sebutkan hal-hal yang 


merupakan keunggulan tes uraian! 
merupakan keunggulan tes pilihan ganda! 
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c. Manakah yang lebih unggul. tes bentuk uraian atau tes bentuk pi¬ 
lihan ganda? Jelaskan! 


4. Buatlah butir soal pilihan ganda bentuk melengkapi lima pilihan pada 
bidang studi Anda yang mengungkap aspek: 

a. pengetahuan 

b. pemahaman 

c. aplikasi 

d. sintesis 

e. analisis 

f. evaluasi 

g. membentuk (creare) 


5. Perhatikan butir soal berikut. Butir soal itu mengukui kemampuan siswa 
mengenai turunan. 

o * 

Jikaf(x)= (4-3a)*" . maka f'(x) = -**. 

a. 4 - 3x 

b. 18x - 24 

c. 8x + 24 

d. 8 - 6x 

e. 16 - 12x _;___ 

Apakah butir soal tersebut mengungkap aspek pengetahuan, pemaham¬ 
an, atau aplikasi? Mengapa? 


Butir soal tersebut i 


6. Perhatikan soal berikut. Butir soal tersebut mengukur k< 
mengenai turunan. 



Sebuah kotak dibuat dari selembar 
x kertas, yang berbentuk persegi 
panjang yang panjangnya 24 cm 
dan lebarnya 9 cm. dengan 
memotong persegi identik pada 
keempat pojoknya dan melipat ke 
atas sisi-sisinya. Carilah ukuran 
kotak agar volumnya maksimum! 


o 


Apakah butir soal tersebut mengungkap aspek pengetahuan, pemaham¬ 
an, atau aplikasi? Mengapa? 


7. Perhatikan butir soal berikut. Butir soal tersebut mengungkap kemam¬ 
puan siswa dalam mencari invers matriks. v 

\Mr6r^A. clar 
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;3 51 I 

Jika A = , ^ Q | ^ A 


3 5 ; 


b. i 


4 9 I 
9 -51 

v - 4 -'J 

, f 9 


I C ' 47 


i d i 


3 ' 

- 5 J 


2. bukan .>a!«.lh di UtUS 


a. Terkait taksonomi BJoom mengungkap aspek ^tir s 

tersebut? Mengapa? Y) '' l 3 \VW£fI 

b. Berbentuk apakah butir soal tersebut? y^\QfXn 

c Apakah butir soal tersebut merupakan butir soal yang baik. Me- 

8. Perhatikan butir soal ber£u? 5l Bufl &&53Kke.riiS 

puan siswa pada materi logika. _____ 

-~ ~~ .. 77 —J 

Negasi pernyataan: “jika ada asap, maka ada api adalah {^ —J < 

a. jika tak ada api, maka tak ada asap d. ada asap atau ada api 

e. ada asap atau tak ada api 


. jika tak ada api, maka tak ada asap 
b. jika ada asap, maka tak ada api 
(c^ida asap, tetapi tak ada api 

a. Terkait taksonomi Bloom. mengungkap aspek apakah butir soal 
tersebut? Mengapa? 

d Berbentuk apakah butir soal tersebut? 

e! Dari sis, lay-out, apakah bulir soal tersebut merupakan butir soal 
yang \ay-oumyn baik? Mengapa? 

D . 0 pso <9,5«^ WbUl 

3eVel£xVi O \\CtfU5 <^ a ^ r' 
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9. Perhatikah bulir soal berikut. 


Bagaimana menurut pendapat Anda, apakah perkembangan pembelajaran 
! matematika di Indonesia sudah cukup baik atau masih tertinggal 
( dibandingkan dengan perkembangan pembelajaran matematika di Malaysia? 
Berikan alasan-alasan yang mendukung pendapat Anda tersebut. 


a. Terkait taksonomi Bloom, mengungkap aspek apakah butir soal 
tersebut? Mengapa? 

b. Berbentuk apakah butir soal tersebut? 

c. Ubahlah butir soal tersebut ke dalam bentuk melengkapi lima 
pilihan. 


10. Perhatikan butir >oai beriut. Butir soal itu mengungkap kemampuan 
siswa dalam menyelesaikan soal program linear. ^ 


Rokok A yang harga belinya R(p 10.000,00dijual dengan harga ^pl 1.00,00^) 
per bungkus, sedangkan rokok BTyang harga belinya Rpl 5.00,00 dijual de¬ 
ngan harga Rp 17.00,00 per bungkus. Seorang pedagang rokok yang mem¬ 
punyai modal R p3.000.000,00 dan kiosnya dapat menampung paling banyak 
250 bungkus rokok akan mendapat keuntungan maksimum jika ia membeli 

0 bungkus rokok A dan 100 bungkus rokok B * A , i , , -j, * 

100 bungkus rokok A dan 150 bungkus rokok B I H lP ^ M 

c. 250 bungkus rokok A dan 200 bungkus rokok B | VlOf] 

d. 250 bungkus rokok A saja \ 


ktkk 


e. 200 bungkus rokok B saja 


<={ 


u o5\ 


k atfU 


a. Terkait taksonomi Bloom, butir soal itu mengungkap aspek pe¬ 
mahaman atau aplikasi? Mengapa? 

b. Adakah kunci jawaban pada butir soal tersebut? Jika ada, yang 
mana? 

c. Apakah butir soal tersebut sudah merupakan butir soal yang baik? 
Mengapa? 
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11, Perhatikan butir soal berikut. 


Ketika Anda membuat RPP «Rencana Pelaksanaan Pembelajaran, untuk 
pelaksanaan pembelajaran selama 2 kali 45 menit. Anda P Ji ' S 
mengetahui apakah tujuan pembelajaran telah tercapai atau belum. Pemlatan 
tipe apakah yang baik dituliskan pada RPP tersebut 
A. Tipe vang baik adalah tipe uraian, sebab mudah membuatnya^ 

b' Tipe yang baik adalah tipe uraian, sebab tidak perlu menu is any 

C Tipe yang baik adalah tipe pilihan ganda, sebab dapat disko, dengan 

IX "npeyang baik adalah tipe pilihan ganda, sebab dapat meliput bahan yang 

i H Bemuk uraian atau bentuk pilihan ganda dapat dipilih, sebab keduanya 
j sama baiknya jika dikonstruksi dengan baik. _ 



a. Terkait taksonomi Bloom. butir soal itu mengungkap aspek yag 

b. Adakah^kundjawaban pada butir soal tersebut? Jika ada, yang 

c. Apakah butir soal tersebut sudah merupakan butir soal yang baik? 
Mengapa? 

**** 

UfeiK bliUL 'm 

ocaia^ cVva ^ 

twa 


ur 
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BAB V 

ANALISIS BUTIR SOAL PENILAIAN RANAH 
KOGNITIF 


PENDAHULUAN 

Untuk kepentingan penelitian atau untuk mendapatkan distribusi skor 
(nilai) yang menyebar, sebelum tes (soal) digunakan soal-soal tersebut harus 
diujicobakan terlebih dulu. Dari sisi instrumen, harus dilihat apakah tes telah 
memenuhi persyaratan validitas atau belum. Dari sisi butir instrumen, butir- 
butir soal harus dilihat apakah telah memenuhi kelayakan sebagai butir yang 
baik atau belum. Oleh karena itu. diperlukan analisis butir soal. 


ANALISIS BUTIR SOAL UNTUK SOAL PILIHAN GANDA 

Pada suatu uji coba, perlu dilihat kualitas butir soal. Kualitas butir 
soal ditandai oleh tingkat kesulitannya, daya pembedanya, dan berfungsinya 
pengecoh, jika bentuk soalnya adalah pilihan ganda. Berikut ini diberikan 
uraian mengenai analisis butir soal untuk tes bentuk pilihan ganda. 


TINGKAT KESULITAN (D1FFICULTY) 

Tingkat kesulitan atau tingkat kesukaran butir soa! menyatakan 
proporsi banyaknya peserta yang menjawab benar butir soal tersebut 
terhadap seluruh peserta tes. Indeks tingkat kesulitan butir soal dapat 
dirumuskan dengan rumus berikut. 


P = 


B. 

N 


5.1 
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dengan P adalah indeks lingkal kesulitan butir soal. B ada» ^nyaknya 
pese'rta tes yang menjawab bena, butir soal tersebur, dan N ada» 

banyaknya seluruh peserta tes. 

Berdasarkan rumus yang ditulis pada Persamaani.v 1 tersebut, apat 
dibuktikan bahwa rentang nilai indeks tingkat kesulitan adalah: 

Pada suatu butir tertentu, nilai P = 0 diperoleh ketika tidak ada 
satupun peserta tes yang menjawab benar butir itu dan nila. P - 1 diperoleh 
ketika semua peserta tes menjawab benar butir itu. 

Berdasarkan rumus itu pula dapat disimpulkan bahwa semsjin 
Iin ggi nilai P. maka semakin mudah suatu butir soal dan semakin 
nilai"P maka semakin sukar butir soal tersebut. 

rrtaSSSSS 

S diperlukan lampcl u/i coba y.ug cukup besar. Semakrn besar ukuran 
sampel uji coba semakin baik. 


Indeks Tingkat Kesulitan yang Diperbolehkan 

Pada analisis tingkat kesulitan, pengembang tes h^us menentukan 
kapan suatu butir dipertahankan dalam suatu tes, dibuang, 

Tp< b om £ olf< 

k p<o“ ^rg'nn^g k'epnd'a urgensi peueliriam 
Biasanya, dilihat' dari sisi lingkal kesnlitan. yang d,pakai sebagai kn 
butir yang baik adalah 0,30 < P < 0,70. 


1 Kalau pengembang les tidak ingin me,a * uk ™'£ ^mlwTdS^Taw*^'™!- 



BahV. AnalUifr Butir Soal/ PendcUarv Panah* Kognitif 


101 


Pada penilaian yang menggunakan pendekatan acuan patokan 
(PAP). misalnya pada pelaksanaan kurikulum berbasis kompetensi (KTSP). 
analisis tingkat kesulitan menjadi tidak relevan untuk dibicarakan, karena 
yang terpenting pada kurikulum berbasis kompetensi adalah apakah peserta 
didik telah memenuhi standar minimal kelulusan atau belum. Pada pelak¬ 
sanaan KTSP, seorang guru pasti mengharapkan semua butir soal dapat 
dikerjakan oleh semua siswa, yang berarti kalau dikaitkan dengan tingkat 
kesulitan, maka yang diharapkan adalah butir soal yang tingkat kesulitannya 
tinggi. 

Tentu saja penentuan butir yang baik menurut tingkat kesulitannya 
bervariasi menurut kepentingannya. Jika tujuan tes adalah untuk masteiy 
learning. maka diinginkan butir soal mempunyai indeks tingkat kesulitan 
sekitar 0,90 (ini berarti diharapkan sekitar 90% siswa akan mencapai tingkat 
tuntas (master)). Jika tujuan tes adalah untuk seleksi, di mana hanya akan 
diterima 25% pelamar, maka butir soal yang baik untuk itu adalah butir soal 
yang indeks tingkat kesulitan sekitar 0,25. 

Contoh 5.1 

Suatu tes pilihan ganda, terdiri dari 15 butir, dikenakan kepada 10 siswa. 
Sebaran skor untuk masing-masing butir dan skor total peserta tes tampak 
pada tabel berikut. 


Tabel 5.1. Sebaran Skor 10 Siswa dalam Menjawab 15 Butir Soal 


Nomor 

Urut 

Siswa 

Nomor Butir Soal 

Skor 

Total 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

1 

1 

1 

1 

0 

1 

0 

0 

1 

1 

1 

0 

1 

1 

0 

1 

10 

'"2 

0 

0 

1 

1 

0 

0 

0 

1 

1 

0 


0 

0 

1 

0 

6 

3 

1 

0 

1 

1 

1 

1 

1 

1 


1 

1 

1 

1 

1 

1 

14 

4 

0 

1 

1 

1 

1 

1 


1 


1 

1 

1 

0 

0 

0 

11 

5 

0 

1 

0 

0 

0 

1 

1 

1 

1 

0 

1 

1 

1 

0 

1 

9 

6 

1 

1 

1 

1 

1 

1 

1 

0 

0 

0 

1 

1 

1 

1 

1 

12 

7 

0 

0 

1 

0 

1 

0 

1 

0 

1 

0 

1 

0 

1 

0 

1 

7 

8 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 


1 

1 

15 

9 

1 

JL 

1 

1 

1 

1 

1 

1 

1 

1 

0 

I 

0 

0 

1 

12 

_10 

1 

0 

1 

1 

J 

1 

1 

I 

1 

0 

1 

1 

1 

1 

1 

13 


Keterangan: 1 = butir soal dijawab benar, 0 = butir soal dijawab salah. 
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Perhatikan Tabel 5.1. Untuk butir soal nomor ! banyakma >an 
menjawab benar butir itu adalah 6. sehingga B = 6 Banyaknya >elu uh 
peserta tes adalah 10. sehingga N = 10. Dengan dem.kian un.uk butir 

soal nomor 1 diperoleh F*i ~ Jq “ 0*6 

Berdasarkan Tabel 5.1 itu pula dapat diperoleh indeks tingkat 
kesulitan untuk butir lain sebagai berikut. 


Po 


- 10 


= 0 , 6 , 


P3 =-^ = 0,9,...,P,5 =15 = 0,8 


8 _ = . 
10 


Misalnya diberikan batasan bahwa butir soal yang baik dari sisi 
tingkat kesulitan adalah 0.30 < P<0.70, maka butir yang t.dak ba.k 
adalah butir soal nomor 3, 5, 7, 8, 9, 11. 12. dan 15. 

Misalnva diberikan batasan bahwa butir soal yang baik dari 
s.s, tingkat kesulitan adalah 0.20 < P<0,80. maka butir yang t.dak 
baik adalah bulir soal nomor 3, dan 9. 

DAYA PEMBEDA ( D1SCRIMINATION POWER) 

Suatu butir soal mempunyai daya pembeda baik jika kelompok 
siswa pandai menjawab benar butir soal lebih banyak daripada kelompok 
siswa tidak pandai. Dengan demikian, daya pembeda suatu butir soal dap 
dipakai untuk membedakan siswa yang pandai dan tidak P^dar Sebag 
Jok ukur pandai atau tidak pandai adalah skor total dan sekumpulan 
yang dianalisis. 

Ada beberapa cara untuk mengukur daya pembeda, yaitu sebagai 

berikut. 

Cara Pertama (Cara Klasik) 

Dengan cara mi, peserta tes diurutkan dari skor total tertingg. sampai 
dengan skor total terrendah. Berdasarkan aturan tertentu peserta tes 
dikelompokkan menjadi dua kelompok, yaitu kelompok atas (panda.) dan 
kelompok bawah (tidak pandai). Biasanya penentuan itu dtokan atas 
mediannya yang berarti separuh dari peserta tes adalah kelompok ata lan 
sepanah dan peserta tes adalah kelompok bawah. Jika banyak datanya ganjil, 
maka data yang berada di tengah tidak diikutkan dalam analisis. 

Jika peserta tesnya dalam jumlah besar, dapat digunakan aturan bah- 
wa 27% (atau 30%) urutan teratas adalah kelompok atas dan 27% (a 
30%) urutan terbawah adalah kelompok bawah. Hal m. didasarkan pada 
pengalaman empirik bahwa 27% (atau 30%) kelompok atas dan 27% (atau 
30%) kelompok bawah dapat mewakili separuh kelompok atas an sep. 
kelompok bawah. 
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adalah banyaknya 
. adalah banyaknya 


Indeks daya pembeda dirumuskan sebagai berikui. 

D «L 

N a N b 

dengan D adalah indeks daya pembeda butir soal. B, 
peserta tes pada kelompok atas yang menjawab benar. N, - 

tes pada kelompok atas, B b adalah banyaknya peserta tes pada 
kelompok bawah yang menjawab benar, dan N b adalah banyaknya peser 
tes pada kelompok bawah. 

Jika pembagian menjadi kelompok atas dan kelompok bawah 
didasarkan kepada median, maka banyaknya peserta tes pada kelompok , . 
sama dengan banyaknya peserta tes pada kelompok bawah J ka 
pembagiannya didasarkan atas rerata, maka bisa jad. banyaknya peserta .i* 
pada kelompok atas tidak sama dengan banyaknya peserta tes pada kelom- 
pok bawah. 


Contoh 5.2 

Suatu tes pilihan ganda terdiri dari 15 butir dikenakan kepada 10 s.swa^ 
Sebaran skor untuk masing-masing butir dan skor total peseita tes tampa 
pada Tabel 5. 1 di depan. 

Untuk mencari indeks daya pembeda dengan cara pertama peserta tes 
diurutkan dari skor total tertinggi ke terrendah. Kemudian, berdasarkan 
mediannya, peserta tes dikelompokkan menjadi kelompok atas dam kelom- 
pok bawah seperti pada Tabel 5.2. 


Tabel 5.2. Skor 10 Siswa setelah Diurutkani 


Nomor 

Urut 

laoei J./L. ois.vr iv UMU’M 

Nomor Butir Soal 






Skor 

To¬ 

tal 

Ke- 

lom¬ 

pok 

1 

? 

3 

4 

5 

6 

7 

8 

9 

10 

11. 

12 

13 

14 

15 

8 


1 

1 

1 

1 

1 

1 

1 

1 

i 

1 

1 

1 

JL 

1 

15 

Atas 

3 

1 

0 

I 

1 

! 

1 

1 

1 

1 

i 

1. 

1 

1 

1 

1 

14 

Atas 

10 

1 

0 

I 



1 

J!_ 

1 

1 

0 

1. 

1 

Oli- 

1 

13 

Atas 

9 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

0 

1 

0 

0 

1 

12 

Atas 

6 

1 

1 

1 

1 

1 

1 

1 

0 

0 

0 

1 

1 

1 

1 

1 

12 

Atas 

4 

0 

1 

1 

1 

1 

1 

JL 

1 

1 

i 

1 

1 

0 

0 

0 

1 i 

Bawah 

1 

1 

1 

1 

0 

1 

0 

0 

1 

1 

1 

0 

JL 

1 

0 

1 

10 

Bawah 

5 

o 

1 

0 

0 

0 

1 

i 

1 

i 

0 

1 

i 

1 

0 

1 

9 

Bawah 

7 

o 

0 

1 

0 

1 

0 

i 

0 

JL 

0 

JL 

0 

1 

0 

l 

7 

Bawah 

2 

0 

0 

I 

1 

0 

0 

0 

1 

i 

0 

i 

0 

0 

1 

0 

6 

Bawah 
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Perhatikan Tabel 5.2. Untuk butir soal nomor 1. misalnya, indeks da¬ 
ya pembeda dapat dicari dengan cara berikut. Banyaknya siswa 
kelompok atas yang menjawab benar ada orang, sehingga B a - 5 dan 
banyaknya siswa kelompok bau ah yang menjawab benar ada 2, 
sehingga B b —2. Berdasarkan ini diperoleh. 


D 



5._i = 0.8 

N b 5 5 


Dengan cara yang sama, diperoleh: 

D, = 0, D 3 = 0,2. D 4 = 0.6, D 5 = 0,2, D 6 = 0,6, 
D-> = 0.4. D 8 = 0. D v = -0,2. Dio = 0,2, D t i = 0, 

D,, = 0,4. D, j = 0.2. D : = 0.6. dan D t « = 0.4. 


Perhatikan kembali indeks daya pembeda dirumuskan sebagai berikut. 

n- liL-ik 
N a N b 

Perhatikan bahwa merupakan tingkaf kesulitan butir pada siswa- 
Na 

siswa kelompok atas, sedangkan ^ merupakan tingkat kesulitan pada 

siswa-siswa kelompok bawah. Dengan demikian, indeks daya beda suatu 
butir dapat dicari dari formula berikut. 

D=P a -Pb 53 

dengan P a adalah tingkat kesulitan butir soal pada kelompok atas dan Pb 
adalah tingkat kesulitan butir soal pada kelompok bawah. 

Dengan demikian, indeks daya pembeda suatu butir dapat dirumus¬ 
kan seperti pada Persmaaan 5.3 


Rentang Indeks Daya Pembeda 

Perhatikan kembali Persamaan 5.2. 


Jika B a = 0 dan B b = N b (yang berarti tidak ada peserta tes pada 
kelompok atas yang menjawab benar dan semua peserta tes pada kelompok 
bawah menjawab benar), maka D = -1. Sebaliknya, jika a - a an 
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B b = 0 (yang berarti semua peserta tes pada kelompok atas menjawab benar 
dan semua peserta tes pada kelompok bawah tidak ada vang menjawab 
benar), maka D = 1. Dengan demikian, rentang indeks daya pembeda 
adalah - 1 < D <. 1. 


Cara Kedua (dengan Koefisien Korelasi Biserial Titik) 

Perhatikan kembali Tabel 5.2. Pada Tabel 5.3 dicuplikkan skor butir 
yang mempunyai daya pembeda positif (yaitu butir soal nomor 1 dan 4) dan 
yang mempunyai daya pembeda negatif (yaitu butir soal nomor 9). dan skor 
totalnya serta pembagian kelompok atas-ba walinya. 


Tabel 5.3. Sebaran Skor Bma /. 4. 9 dan Sebaran Skor J anu 


Nomor Urut Siswa 

1 

i ^ 

o 

Skor Total 

Kelompok 

8 

i i i i i | 15 

Atas 

3 

i 

1 

1 

14 

Atas 

10 

i 

1 

1 

13 

Atas 

9 

i 

i 

1 

12 

Atas 

6 

i 

1 

0 

12 

Atas 

4 

0 

1 

1 

11 

Bawah 

1 

1 

0 

1 

10 

Bawah 

5 

0 

0 

1 

9 

Bawah 

7 

0 

0 


7 

Bawah 

2 

0 

1 

1 

6 

Bawah 


E>=0.8 

D=0,6 

D=-0.2 




Perhatikan sebaran skor butir soal nomor 1 dan nomor 4 dan skor to¬ 
talnya. Terdapat kecenderungan bahwa kelompok atas cenderung menjawab 
benar dan kelompok bawah cenderung menjawab salah. Ini berarti pada butir 
yang indeks daya pembedanya positif, terdapat korelasi positif antara skor 
butir dengan skor totalnya. Di sisi lain, perhatikan sebaran skor butir nomor 
9 di mana semua peserta tes kelompok bawah menjawab benar dan tidak 
semua peserta tes kelompok atas menjawab benar. Ini berarti terdapat 
korelasi negatif antara skor butir nomor 9 dengan skor totalnya. Indeks daya 
pembeda butir nomor 9 negatif. Dengan demikian, ada cara lain untuk 
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mencari indeks daya pembeda, yaitu dengan mencari koetisien korelasi 
antara skor butir dan skor total". 


Pada cara kedua ini, indeks daya pembeda suatu butir dicari dengan 
mencari koefisien korelasi antara skor bulir tersebut dengan skor total 
peserta tes. Dengan demikian, indeks daya pembeda dirumuskan sebagai 

berikut. 


D - r pbis” 


ny.XY-(IX)(Y YV 


% /(nIX 2 -(IX) 2 )(nTY : 


iTYt-1 


dengan X adalah skor butir dan Y adalah skoi t. • 1 . 1 ! 

Cara kedua im disebut cara ctenean menecuaakan koeli.Me;; * 
biserial titik (point hiu* rial correlatwn). 


Contoh 5.3 

Untuk mencari daya pembeda pada butir nomor 1 pada contoh di atas 
dengan koefisien korelasi biserial titik dapat dicari sebagai benkut. 


Tabel 5.4. Tabel Kerja untuk Menghitung Daya Pembeda Butir Nomor I 






Total 

Skor Butir 
ke-1 (X) 

1 

0 

1 

0 

0 

1 

0 

1 

1 

1 

6 

Skor Total 

10 

6 

14 

11 

9 

12 

7 

15 

12 

13 

109 

v 1 ) 

X 2 

1 

0 

1 

0 

0 

1 

0 

1 

1 

_1__ 

6 

Y 2 

100 

36 

196 

121 

81 

144 

49 

225 

144 

169 

1265 

XY 

10 

0 

14 

0 

0 

12 

0 

15 

12 

13 

76 


n Z X Y ' /. x ><X Y) 

Dl =rp6iS= J(nEX 2 MVv,^£YMlY^ 

_ (10)(76Hh)( 109) = 078 

J((10X6) - 6 2 )(( 1 0)0 265)- 109 2 ) 
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Jadi, dihitung dengan koefisien korelasi biseriai titik, maka indeks 
daya pembeda butir soal nomor 1 adalah D, = 0.78. 

Dengan cara yang sama, diperoleh: 

D : = 0.27. D, = 0.23. D, = 0.53. D, = 0.61. 

D 6 = 0.76. D 7 = 0,52, D g = 0.25. D 9 = 0,135. 

D,o = 0,54, D„ = 0,02, D 12 = 0,79. D l? = 0,29, 

D l4 = 0,40, dan D 15 = 0,43. 


Cara Ketiga (dengan Koefisien Korelasi Biseriai Titik) 

Rumus pada cara kedua dapat disederhanakan dalam rumus berikut 
ini. 


Yl-Y j P\ 
cry 


dengan X adalah skor butir, Y adalah skor total, Yj adalah rerata skor V 
dengan X = 1, Y adalah rerata untuk skor total untuk Y, ay adalah deviasi 

? EY 2 fXY^ 2 

baku dari skor total (dianggap populasi) dengan <jy = ——-I—* 

N adalah banyaknya siswa, dan p x adalah proporsi peserta tes dengan 
X = 1. 


Contoh 5.4 

Dengan rumus koefisien korelasi biseriai titik yang kedua, indeks daya 
pembeda butir soal nomor 1 dihitung sebagai berikut. 

EY = 10+6 +14 + ...+ 12 + 13 = 109 

^Y 2 =10 2 + 6 2 +14 2 + ... + 12 2 +13 2 = 1265 
Yj = 1 Q-i-14-f 12-f 15+12+13 _ |2 • 

Y = 10+6+ 14+. ..+12+13 _ |Q 9QQ* 
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f Y]-Y') I p x J _ * 12.667-10.900 j 0j6~ _ q jg 
i ay~ »V n~Px > ~ 2 733 <1 “°* 6) 


Cara Keempat (dengan Koefisien Korelasi Biserial) 

Rumus pada cara keempat ini adalah sebagai berikut. 


D= ibi S =| 


Yl~Y 


V <*Y 


Px 

ffz) 


dengan X adalah skor butir. Y adalah -kor total. Y, adalah rerata skor V 
dengan X = i. Y adulah rerata untuk -kor total untuk Y. Gy adalah deviasi 

- iY : vv r 

baku dari 4;or tota' (dianggap populasi) dengan cry = ^ ~ ' : sTj 

N adalah banvaknva siswa, p, adalah proporsi peserta tes dengan X = 1. 
z adalah nih., pada distribusi normal baku demikian hingga luas d. bawah 

1 ~2 Z 

kurva normal baku dan di sebelah kanan z adalah p„ dan i(z) - ^ e 


Contoh 5.5 

Dengan rumus koefisien korelasi biserial, indeks daya pembeda but.r soal 
nomor 1 dihitung sebagai berikut. 

Y|= 12,667; Y = 10,900; o y = 2,733; p, = 0,6; 


z = -0,25 (diperoleh dari tabel distribusi normal baku); 
1 2 

1 —z 1 


f(-0,25) 


-J2n 


= ( 


JT2K3,143) 


)(2,714 


1 ? 

—-(-0,25; 


) = 0,39, 


sehingga: 


n _ r . f Yl-Y) p x 

r b‘ s \ oy Jf(z) 

_ ( 12,667-10,900 Y 0± ] = (() 647)( |,600) = 0,99 
- I, 2,733 A 0.39 J 


Di antara keempat cara di atas, dulu ketika alat kalkulasi belum 
banyak tersedia, orang menggunakan cara pertama. Bahkan, pengam i an 
27% urutan teratas untuk kelompok atas dan 27% urutan terbawah' 
kelompok bawah adalah untuk menyederhanakan perhitungan. Namun 
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sekarang ini. dengan telah tersedianya paket pengolah data, misalnya MS 
Exel, atau paket program statistik, misalnya SPSS, maka cara kedua, yaitu 
dengan koefisien korelasi biserial titik yang dianjurkan. Cara ini dianjurkan 
karena di samping dapat untuk tes pilihan ganda, dapat juga digunakan untuk 
tes uraian. 


Indeks Daya Pembeda yang Diperbolehkan 

Pengembang tes biasanya ingin memperoleh daya pembeda yang 
positif dalam arti kelompok pandai menjawab benar butir soal lebih banyak 
daripada kelompok tidak pandai. Jika dianalisis dari definisi daya pembeda, 
maka semakin mendekati 1, semakin baik indeks daya pembeda untuk butir 
tersebut. Namun demikian, mengupayakan indeks daya pembeda yang 
sangat tinggi, cukup sukar. 

Oleh karena itu. biasanya, suatu butir soal dikatakan mempunyai 
daya beda yang baik apabila indeks daya bedanya sama atau lebih dari 0,30. 
(jadi, D > 0,30). 


BERFUNGSINYA PENGECOH 

Pengecoh yang baik harus dipilih oleh peserta tes. Untuk me¬ 
nentukan apakah pengecoh berfungsi atau tidak, biasanya, diambil nilai 
ambang 5%. Artinya, salah satu syarat agar pengecoh dikatakan berfungsi 
baik adalah jika pengecoh tersebut dipilih oleh paling sedikit 5% peserta tes. 

Agar dapat mengecoh peserta tes, maka pengecoh-pengecoh yang ada 
pada suatu butir soal harus sama kuat daya tariknya. Suatu pengecoh yang 
sangat berbeda dengan pengecoh lainnya tentu saja tidak dianjurkan. 
Perhatikan contoh butir soal berikut. 


Contoh 5.6 

Perhatikan butir soal berikut. 

Raja pertama Majapahit adalah ... . 

a. Tunggul Ametung 

b. Brawijaya 

c. Hayam Wuruk 

d. Ken Arok 

e. Superman 
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Penaecoh d tidak mempunya, daya tarik sama kuat dengan pengecoh 
lainnya, karena pengecoh d bukan nama raja, dan semua orang tahu^^ 
Superman bukanlah nama raja, tidak seperti pengecoh > - 

karena itu, pengecoh d harus diganti. 

Pada mata pelajaran tertentu, seperti misalnya matematika f* n § e «>h 
disusun berdasarkan atas kesalahan yang mungkin d.lakukan oleh peserta 


tes. 


Contoh 5.7 

Misalnya stem nya adalah -Himpunan penyelesaian persamaan kuadrat 
4 \ - 1 = 0 adalah ... 

Kunci jawaban dari butir soal tersebut dapat dicari dari pengerjaan 
berikut. 

4x 2 -1=0 

<=> (2x + l)(2x - 1) = 0 
<=>2\+ I =0 atau 2x - I = 0 

<=>x = -^ atau x= j 

HP = ( 2 - _ 2 1 


Untuk menentukan pengecoh dari stem tersebut dipikirkan tesa- 
lahan yang mungkin dilakukan oleh siswa. Diduga ada siswa y g 
mengerjakan soal tersebut dengan cara-cara seperti berikut. 


4x 2 -1=0 

c=> (4x + l)(4x - 1) = 0 
cr> 4x + 1 = 0 atau 4x ! 0 

<=> x = - -T atau x = -■ 


4x 2 -1=0 
<=> 4x 2 = 1 
_ v 2 _I 

x -4 

<=> x = ^ 

HP = ( \ 1 
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4x 2 -1=0 
O 4x 2 = 1 


<=> X 



<=> x = 4 

4 

HP={{} 


4x“ - 1 = 0 
o3x 2 =0 

<=> x“ = 0 
C=> x = 0 
HP = {0} 


Dengan pemikiran seperti itu. maka butir soal tersebut dapat disusun 
seperti berikut. 

o 

Himpunan penyelesaian persamaan kuadrat 4x~ - 1 = 0 adalah ... 
a. 10} 


Kecuali dipilih oleh paling sedikit 5% dari seluruh peserta tes, pe¬ 
ngecoh yang baik harus lebih mengecoh kelompok bawah daripada 
kelompok atas. Artinya, supaya pengecoh berfungsi, peserta tes kelompok 
bawah yang memilih pengecoh tersebut harus lebih banyak daripada peserta 
tes kelompok atas. Perhatikan contoh berikut. 


Contoh 5.8 

Berikut ini terdapat sebaran jawaban sekelompok peserta tes untuk butir soal 
tertentu. 


Tabel 5.5. Sebaran Jawaban Peserta Tes untuk Butir Soal Tertentu 


Kelompok 

Pilihan Jawaban 

A 

B 

C 

D 

E 

Kelompok Atas 

1 

5 

42 

4 

0 

Kelompok Bawah 

9 

5 

26 

3 

9 


Keterangan: kunci jawaban C 
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Butir soal tersebut mempunyai indeks tingkat kesulitan P ]04 ~ °’ 65 dan 

D _ 42 _ 26 _ (j _3 j. yang berarti merupakan butir soal yang cukup ba.k 

untuk mengambil data prestasi belajar pada suatu penelitian, sebab 0,30> S 
P< 0 70 dan D > 0.30. Namun demikian, pengecoh B dan pengecoh ^ 
berfungsi dengan ba.k, sebab kelompok bawah tidak lebih banyak yang 
memilfh pengecoh-pengecoh tersebut d.band.ngkan dengan kelomp 

Perhatikan baik-baik bahwa semakin baik pegecoh berfungsi, buti. 
soal tersebut semakin mempunyai daya pembeda yang ba.k. namun dem. 
klan, indeks tingkat kesulimnnya cenderung menurun (berart. buur mm, 

semakin sulit v 


PAKET PROGRAM UNTUK ANALISIS BUTIR 

Dewasa ini banyak paket program komputer yang f awa^n untuk 
melakukan analisis butir. Salah satu di antaranya adalah paket Program 
komputer yang diberi nama ITEMAN, singkatan dan ttem 
program ITEMAN dibuat oleh Assessment Systems Corporation i i 

Serikat. .. 

Untuk ITEMAN Versi 3.0 (yang dipunyai oleh penulis) masih 

command atau dapat digunakan Notepad. 

Ketentuan untuk menulis file input adalah sebagai berikut. 

1. Baris pertama berisi kode-kode sebagai berikut. 


1 1 Keterangan __——----— 

Contoh ! 

IWIVIll 

1-3 

Banyaknya butir yang dianalisis-- 

020 

4 

5 

Koson c/spasi ___— 

Untuk jawaban om/f/kosong ____ 

O _1 


Kosong/spasi _—- 


U 

7 

Untuk butir soal yang tidak (belum sempat) 
dikerjakan -—-——— 

N 

3 

Kosong/spasi --- 

... 

9-10 

Banyaknya kolom yang diperlukan untuk identitas 
peserta tes ----- 

4 
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2. Ban> kedua berisi kunci jawaban 

3. Baris ketiga berisi banyaknya alternatif jawaban 

4. Baris keempat: berisi kode: "Y" berani butir dianalisis* N * butir tidak 
dianalisis. 

Ada dua file output pada program ITEMAN. File penama berisi hasil 
analisis butir, file kedua berisi skor peserta tes. 

Contoh 5.9 

Misalnya terdapat perangkai tes yang terdiri dari 20 bulir soal yang diberi¬ 
kan kepada 10 peserta tes. Misalnya sebaran jawaban siswa adalah sebagai 
berikut. 


Tabel 5.6. Sebaran Jawaban JO Peserta Tes untuk 2u Butir Soal 


I No i Nomor Butir Soal 


Sis 

wa 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

1 1 

12 

13 

14 

13 

16 

17 

18 

19 

20 

l 

A 

C 

B 

E 

E 

D 

C 

E 

B 

D 

C 

C 

D 

C 

A 

A 

B 

A 

A 

C 

2 

A 

A 

B 

D 

B 

B 

C 

E 

E 

D 

C 

B 

D 

C 

A 

A 

B 

A 

C 

D 

3 

C 

A 

B 

D 

B 

B 

C 

E 

E 

B 

C 

E 

D 

C 

A 

A 

B 

A 

B 

D 

4 

C 

A 

B 

E 

B 

B 

c 

E 

E 

B 

C 

E 

D 

C 

A 

A 

O 

A 

D 

O 

5 

C 

B 

A 

E 

B 

C 

D 

E 

E 

A 

B 

C 

D 

A 

A 

A 

B 

A 

C 

D 

6 

D 

A 

B 

D 

B 

E 

D 

E 

C 

B 

D 

C 

D 

C 

A 

A 

C 

B 

E 

E 

7 

C 

A 

C 

D 

B 

B 

B 

E 

E 

B 

C 

E 

D 

C 

A 

A 

B 

A 

D 

C 

8 

C 

A 

B 

D 

B 

B 

B 

E 

E 

D 

C 

E 

D 

C 

B 

C 

C 

B 

A 

A 

9 

B 

D 

C 

D 

C 

C 

B 

C 

D 

A 

D 

B 

B 

D 

C 

C 

C 

A 

C 

D 

10 

A 

B 

C 

B 

E 

D 

E 

E 

A 

A 

C 

D 

A 

B 

A 

A 

B 

A 

C 

C 


Misalnya, file input datanya diberi nama data.dat dan ditulis sebagai 
berikut 3 . 


Perhatikan bahwa file ini harus ditulis dalam sistem ASCI. misalnya dengan menggunakan 
Notepad atau perintah Edit pada sistem DOS. 
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020 O N 4 

CCBDBDEEERCAECAAEACE 

55555555555555555555 

YYYY yvyvv v Y Y Y Y Y Y Y Y i i 

001 ACBEEDCEBDCCDCAABAAC 
002 AABDBBCEEDCBDCAABACD 
003 CABDBBCEEBCEDCAABABD 
004 CABEBBCEE3CEDCAA0ADC 
005 CBAEBCDEEABCDAAABACD 
006 DAEDEEDECEDCDCAACBEE 
007 CACDEBBEEBCEDCAABADC 
008 CAEEBBBEEDCEDCBCCBAA 
00 9 B D C D C C B C E A E B B DC C C A C L 
01C AE rEErSEA-ACrAEAAEAC7 


Setelah program dieksekusi, maka husiln>a dapat dilihat P^ a 
file output. Misalnya ftle tersebut disebut output ntaka pada file 
tersebut dapat dilihat karakteristik masing-masing butir. Untuk bt. 
soal nomor 1, misalnya, diperoleh keluaran berikut. 


Item Statistics 


Alternative Statistics 


Seq Scale Prop- Point 

No. -Item Correct Biser. Biser. 


Prop. roin u 

Alt. Endorsing Biser. Biser Key 


0-1 


0.500 0.506 0.404 


A 

B 

C 


Other 


0.300 

0.100 

0.500 

0.100 

0.000 

0.000 


0.174 

- 1.000 

0.506 

-0.077 

- 9.000 

-9.000 


0.132 

-0.830 

0.404 

-0.045 

- 9.000 

-9.000 


Berdasarkan keluaran tersebut, diperoleh hal-hal berikut: 

1. Indeks tingkat kesulitan P = 0,500 

2 Indeks dava pembeda D = 0.506 (jika menggunakan korelasi 
biserial) atau D = 0,404 (jika menggunakan korelasi biscnal titik). 

3. Untuk pengecoh A, banyaknya peserta tes yang memfliht aya ada 
30% dan diperoleh indeks daya pembeda D = 0 , 132 . Karena 
indeks daya pembedanya positif, berarti pengecoh A dipilih lebih 
banyak kelompok atas daripada kelompok bawah. Ini berarti 
pengecoh A tidak berfungsi. 
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4. Untuk pengecoh B. banyaknya peserta tes yang memilihnya ada 
10% dan diperoleh indeks daya pembeda D = -0,830. Karena 
indeks daya pembedanya negatif, berarti pengecoh B dipilih lebih 
banyak kelompok bawah daripada kelompok atas. Ini berarti 
pengecoh B berfungsi dengan baik. 

5. Dengan pemikiran yang sama seperti pada pengecoh B, maka 
pengecoh D juga berfungsi baik. 

6. Pengecoh E tidak dipilih lebih dari 5% peserta (karena banyak 
pemilihnya 0 %). maka pengecoh E tidak berfungsi. 

Berikut ini adalah keluaran untuk butir soal nomor 20. 


icale F r :p. Poir.t 

-Item Correct Eiser. Biser 


Point 

Biser 


20 0-20 0.100 -0.011 -0.045 A 0.100 

B 0.000 

CHECK THE KEY C 0.3C0 

E was specified, C works better D 0.400 

E 0.100 

Other 0.100 


- 0.268 - 0.157 
- 9.000 - 9.000 
0.174 0.132 ? 

- 0.139 - 0.110 
- 0.077 - 0.045 * 

0.307 0.179 


Berdasarkan keluaran tersebut, diperoleh hal-hal berikut: 

1. Indeks tingkat kesulitan P = 0,100, yang berarti butir soal terlalu 
sulit. 

2. Indeks daya pembeda D = —0,077 (jika menggunakan korelasi 
biserial) atau D = -0,045 (jika menggunakan korelasi biserial 
titik). Ini berarti bahwa butir soal nomor 20 bukan butir soal yang 
baik, karena daya pembedanya negatif. 

3. Untuk pengecoh A, banyaknya peserta tes yang memilihnya ada 
10% dan diperoleh indeks daya pembeda D = -0,157. Berarti, 
pengecoh A dipilih lebih banyak kelompok bawah daripada 
kelompok alas. Ini berarti pengecoh A berfungsi. 

4. Untuk pengecoh B. tidak ada peserta tes yang memilihnya. Berarti, 
bukan pengecoh yang baik. 

5. Pengecoh C adalah pengecoh yang tidak baik karena daya 
pembedanya positif, walau* dipilih oleh 30 c k peserta tes. 
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6. Pengecoh E adalah pengecoh yang baik karena dipilih oleh 10<7r 
dan daya pembedanya negatit. 

7 Terdapat \0% peserta yang tidak mengerjakan (atau tidak option 
A. B, C, D. maupun E). Lihat alternatif Other. 

8 Perhatikan bahwa ITEMAN memberikan masukan agar peng- 
embang tes meninjau kembali kunci jawaban. Kunci jawaban yang 
disebut oleh pengembang adalah E, namun ITEMA 
mem araukan apakah kunci jawabannya bukan C. karena pengecoh 
C mempunyai daya pembeda positif yang paling besar di antara 
<ia\a pembeda yang lain. 

Pada akhir J'ile otitput untuk hasil analisis butir juga dimuncul- 
kan ringkasan analisis seperti berikut. 

N of Items 2G 

N of Examinees 10 


Mean iu.muu 
V ariance 8.840 
Std. Dev. 2.973 
Skew "1 * 235 
Kurtosis 1.188 
Minimum 3.000 
Maximum 14.000 
Median 10.000 
Alpha 0.638 
SEM 1.788 
Mean P 0.520 
Mean Item-Tot. 0.362 
Mean Biserial 0.468 


Dari keluaran itu dapat dilihat, misalnya, koefisien reliabilitas tes, 
yang dihitung dengan teknik alpha adalah sebesar 0,638. 

ANALISIS BUTIR UNTUK SOAL URAIAN 

Berbeda dengan analisis butir untuk soal pilihan ganda tidak 
banvak buku yang membicarakan analisis butir untuk soal bentuk 
uraian. Pada buku ini. analisis butir untuk soal bentuk uraian 
dikembangkan dari analisis bulir untuk soal bentuk pilihan ganda. 
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TINGKAT KESULITAN 

Indeks tingkat kesulitan untuk tes uraian dirumuskan sebagai 
berikut. 

p =_J_ 55 

Smaks 

dengan P adalah indeks tingkat kesulitan, S adalah rerata untuk skor 
butir, dan S ma j <s adalah skor maksimum untuk butir tersebut. 

Contoh 5.10 

Misalnya terdapat 5 butir soal bentuk uraian yang dikenakan pada 10 orang 
siswa. Setiap butir diskor dengan skala 10 (skor minimal 1 dan skor 
maksimal 10). Sebaran skor mereka adalah sebagai berikut. 


Fabel 5.7. Sebaran Skor untuk W Peserta Tes pada 5 Butir Uraian 


No Butir 

Nama Siswa | 

Aa 

Bb 

Cc 

Dd 

Ee 

Ff 

G?? 

Hh 

Ii 

Ji 

1 

6 

9 

7 

9 

7 

4 

7 

6 

5 

5 

2 

7 

8 

7 

9 

7 

5 

8 

7 

7 

3 

3 

6 

9 

6 

9 

7 

5 

7 

6 

8 

4 

4 

5 

7 

8 

10 

8 

4 

8 . 

6 

6 

4 

5 

8 

9 

7 

9 

7 

6 

7 

8 

7 

6 

Skor Total 

32 

42 

35 

46 

36 

24 

37 

33 

33 

22 


Dalam kasus ini, skor maksimal untuk masing-masing butir soal adai 10, 
sehingga indeks tingkat kesulitan untuk butir soal nomor 1 dicari sebagai 
berikut. 


65 

P = S _ 10 

1 Smaks 10 


6 ^ 

10 


0,65 


Dengan cara yang sama, diperoleh: P 2 = 0.68; P^= 0,67; P 4 = 0.66: dan 
P 5 = 0,74. 


DAYA PEMBEDA 

Indeks daya pembeda dicari dengan mencari koefisien korelasi 
antara skor butir dengan skor total sebagai berikut. 
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D = 


r pbi: 


nZXY-(£X)(XY) 


5.6 


V ! inIX 2 -(IXrHnXY 2 -(lYD 

dengan X adalah skor butir dan Y adalah skor total 


Untuk''menghitung indeks daya pembeda uniuk buiir soal 

dicari koefisien korelasi antara skor butir pertama dengan skor total. 

sebagai berikut. 

Tabel 5.8. Tabel Kerja uniuk Mencari Daya i Pembeda Soal Nomo r 1_ 

Nomor Urut Siswa 
Skor Butir ke-1 (X,> 


Skor Total Siswa (Y) | 32 j 42 


XY 


192 


x- 


Y~ 


36 


1024 


378 


81 


1764 


35 i 46 


0X0X1 


245 


49 


1225 


414 


36 


81 


2116 


252 


49 


1296 


24 


96 


|259 


16 


37 


49 


576 11369 


33 


198 


36 


1089 


33 


165 


25 


1089 


10 


22 


110 


25 


484 


Total 


65 

"340 


2309 


447 


12032 


Indeks daya pembeda untuk butir soal nomor 1 dicari sebagai berikut. 

nX XY -(X X )<XY) 


Dl — r pbis ” 


7(«2x 2 -(VX) 2 )(nXY z -(ZV)S 
(10)(2309> (65)(340) 


4(10(447) - 65 2 Jj[l 0)(12033 - 340 2 


= 0,92 


Dengan cara yang sama, diperoleh D 2 = 0,94; D, - 0,91; D 4 0,90, dan 
D 5 = 0,84. 

BAHAN DISKUSI 

, a Apa van° di'ebut dengan indeks kesulitan bulir soal? Jelaskan! 

‘ b. ApaS semakin tinggi indeks kesulitan butis soal, butir soal 

tersebut semakin sulit? Mengapa? , 9 

b Apa yang disebut dengan endeks daya beda butir soal. Jelaskam 
c Misalnya suatu butir soal mempunyai indeks daya pembeda D . 
S menjawab benar butir soal tersebut dan Sit, menjawab salah 
butir soal tersebut. Apakah dapat dipastikan bahwa Arrurtermasu 
anak pandai dan Siii termasuk anak yang tidak pandai .M g P 
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d. Misalnya suatu butir >oal mempunyai indeks daya pembeda D = 0. 
Parti menjawab benar butir soal tersebut dan Wanti menjawab salah 
butir soal tersebut. Apakah dapat dipastikan kalah Parti termasuk 
anak pandai dan Wanti termasuk anak yang tidak pandai? Menga¬ 
pa? 

e. Apa aninya jika daya beda suatu butir soal negatif? Jelaskan! 

f. Apa artinya jika tingkat kesukaran butir soal negatif? Jelaskan! 

g. Suatu butir soal mempunyai D = 0.45 dan P = 0.25. Apakah butir 
tersebut merupakan butir yang baik? Mengapa? 

2. Menurut Anda, manakah yang lebih menguntungkan sisw'a: 

a. butir soal yang indeks tingkat kesulitannya rendah 

b. butir soal yang indeks tingkat kesulitannya tinggi 

c. butir soal yang indeks daya pembedanya di sekitar nol 

d. butir soal yang indeks daya pembedanya mendekati satu. 

3. Berikut ini adalah sebaran skor 8 siswa pada 15 butir soal pilihan ganda. 


Tabel 5.11. Sebaran Skor 8 Siswa dalam Menjawab 15 Butir Soal 


Nomor 

Urut 

Siswa 

Nomor Butir Soal 

Skor 

Total 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

1 

1 

1 

1 

0 

1 

0 

0 

1 

1 

1 

0 

1 

1 

o 

1 

10 

2 

0 

0 

1 

1 

0 

0 

0 

1 

1 

0 

1 

0 

0 

1 

0 

6 

3 

1 

0 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

14 

4 

_0_ 

1 

1 

1 

1 

1 

1 

I 

1 

J_ 

1 

1 

0 

0 

0 

11 

5 

0 

1 

0 

0 

0 

1 

1 

1 

1 

0 

1 

1 

1 

0 

1 

9 

6 

1 

1 

1 

1 

1 

1 

1 

0 

0 

0 

1 

1 

, 

1 

1 

12 


H 

D 

B 

B 

BI 

BI 

B 

fl 

1 

0 

1 

0 

1 

0 

1 

7 


n 

El 

Bi 

B 

BI 

BI 

I 


1 

0 

1 

1 

1 

1 

1 

13 


Keterangan: 1 = butir soal dijawab benar. 0 = butir soal dijawab salah. 


a. Hitunglah indeks tingkat kesulitan dan indeks daya pembeda 
(dengan rumus pertama) masing-masing butir soal pada Tabel 5.11. 

b. Dengan mengacu kepada ketentuan bahwa butir yang baik adalah 
butir yang 0,30 < P <0,70 dan D >0,30, adakah butir yang baik 
pada data Tabel 5.1 J? Yang mana? 

4. Diketahui data pada Tabel 5.11. Carilah daya beda masing-masing butir 
dengan rumus korelasi biserial titik. Apakah nilai sama persis dengan 
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nilai daya pembeda yang dicari dengan menggunakan rumus penama. 
Mengapa? 

5. Berapa rentang indeks daya pembeda jika digunakan rumus 
korelasi biserial titik? Jelaskan pendapat Anda. 

6. Berikut ini terdapat sebaran jawaban sekelompok peserta tes untuk butir 


soal tertentu. 


Kelompok 

Pilihan Jawaban _ J 

A 


D K .... 

Kelompok Atas 

0 

5 j 42 

- L * 

Kelompok Bawah 

10 

5 j 26 

5 4 


Keterangan: kunci jawaban C 


Jika seluruh peserta tes menjawab butir soal tersebut, jawablah pu- 
tanyaan berikut. 

a. Berapa tingkat kesulitan butir soal tersebut? 

b. Berapa daya beda butir soal tersebut? 

c Apakah butir soal tersebut merupakan butir soal yang baik, jika 
dilihat tingkat kesulitan dan daya bedanya? Mengapa? 
d. Mana saja pengecoh yang berfungsi? Mengapa? 

7. Berikut ini terdapat sebaran jawaban sekelompok peserta tes untuk butir 


suai ic-i it-iiiM. 

Pilihan Jawaban _ _ 

Kelompok 

A 

B 

C 

D 

E 

Kelompok Atas 

6 

4 

37 

3 

0 

Kelompok Bawah 

14 

4 

30 

2 

0 


Banyaknya seluruh peserta tes adalah 100 orang. Kunci jawabanny* 


adalah C. 

a. Berapa tingkat kesulitan butir soal tersebut ? 

b. Berapa daya beda butir soal tersebut? 

c. Apakah butir soal tersebut merupakan butir soal yang baik, uka 
dilihat tingkat kesulitan dan daya bedanya ? Mengapa. 

d. Mana saja pengecoh yang berfungsi ? Mengapa? 
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8. Berikut ini adalah sebaran dari 10 peserta tes pada 20 butir soal pilihan 
ganda. 


N o 

Nomor Buur Soai 

Sis 
! wa 

( 

1 

et 

nr 

j 

T 

r?r 

d 

. 

b 

— 

I ' 
i 

S 

1 

I i 

,9» 10,11 

t ! 1 

12 

i ■; 

, * .v 

! U 

jlf 

i * ^ 

1 ' 

i» 

i 19 

i-0 

1 

A 

C 

B 

E 

E 

D 

C 

E 

B 

D 

C 

C 

D 

C 

A 

A 

Ll 

A 

A 

c 

2 

A 

A 

B 

D 

B 

B 

C 

E 

E 

D 

C 

B 

D 

C 

A 

A 

B 

A 

C 

D 

3 

E 

A 

B 

D 

B 

D 

C 

E 

E 

B 

C 

E 

D 

C 

A 

A 

B 

A 

B 

D 

4 

C 

A 

B 

E 

B 

B 

c 

E 

E 

B 

c 

E 

D 

c 

A 

A 


A 

D 

D 

5 

D 

B 

A 

E 

B 

C 

D 

E 

E 

A 

B 

C 

D 

A 

X 

•X 

B 

A 

C 

D 

6 

D 

t . 

A 

B 

D 

B 

! 

E 

D 

• 

E | 

C 

B 

D 

C 

; 

n 1 r 

\ 

1 A 1 

1 Cl 

i_ _ 1 

B 1 

.J 

E 

I e ; 

7 

c 

A 

C 

D 

B 

B 

• B 

E 

E 

B 

c 

Ll. 

7 

C 

D 

1 A 

; C i 

! 

A | 

! 

i D 

8 

B 

: a 

B 

D 

B 

B 

B 

E 

E 

D 

c 

E 

D 

C 

B 

i i 

c; 

c; 

T 

A 

■ a : 

9 

B 

i 

D 

C 

D 

C 

C 

B 

C 

D 

A 

D 

B 

B 

D 

C 

c 

c 

A 

C 

t 1 

1 D 

10 

A 

B 

C 

B 

E 

D 

E 

E 

A 

A 

C 

D 

A 

B 

A 

A 

B 

A 

C 

C 

KJ 

A 

A 

B 

D 

B 

B 

C 

E 

E 

A 

C 

B 

D 

C 

A 

A 

C 

A 

C 

D 


Keterangan: KJ = kunci jawaban 


Dengan menggunakan ITEMAN, lakukan analisis butir pada data 
tersebut dan sebutkan mana-mana butir yang baik, dan mana-mana butir 
yang tidak baik. 

9. Berikut ini adalah hasil dari pengolahan dengan ITEMAN 


Item Statistics Alternative Statistics 


Seq. 

Scale 

Prop. 


Point 


Prop. 


Point 

No. 

-Item 

Correct 

Biser. 

Biser 

Alt. 

Endorsincj 

Biser. 

Biser. Key 

5 

0-5 

0.450 

0 . *?36 

0.586 

A 

0.200 

- /i d 

-0.451 






B' 

o ; 450 

0 . " 3 >' 

0.586 * 






• C. 

. Q. 1.00 .. 

4 

-0.394 






D 

0.100 

-; . 032 

-0.019 






E 

0.150 

r . 0 s d 

0.035 






GLher 

G . 000 

- ■■ . vwG 

-5.000 


a. Berapa tingkat kesulitan butir soal tersebut? 

b. Berapa indeks daya beda butir soal tersebut? 

c. Apakah butir soal tersebut merupakan butir soal yang baik, jika 
dilihat tingkat kesulitan dan daya bedanya? Mengapa? 

d. Adakah pengecoh yang tidak berfungsi baik? Jelaskan mengapa 
Anda mengatakan bahwa pengecoh itu merupakan pengecoh yang 
tidak berfungsi baik, jika ada! 
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10. Berikut ini adalah hasil keluaran ITEMAN untuk soal nomor 19 dan 20. 





19 0-19 C.600 


2 0 C-2 0 





-TOO . 

Alt. Endorsing 

A 0.133 

B 0.067 

r- 0.600 

r 0.133 

E 0.067 

-:.~r 0.000 

A 0.133 

1 0.067 


...2 6 7 




,iser . c^ser . E<=> 

-0.465 -0.294 
0.086 0.045 

0.345 0.272 * 


-0.052 -0.033 
-0.258 -0.134 



-o. 4-: 


a. Apakah butir nomor 19 memenuhi persyaratan sebagai bulir yang baik 
dilihat dari daya beda dan tingkat kesukarannya? Mengapa. 

b. Apakah butir nomor 20 memenuhi persyaratan sebagai butir yang baik 
dilihat dari daya beda dan tingkat kesukarannya? Menapa. 

c. Pada butir nomor 19, adakah pengecoh yang tidak berfungsi? Yang 
mana? Mengapa? 

d. Pada butir nomor 19, adakah pengecoh yang tidak berfungsi? Yang 
mana? Mengapa? 
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BAB VI 
NON TES 


PENDAHULUAN 

Perhatikan kembali pengertian tes yang disampaikan pada Bab 111. 
Tes didefinisikan sebagai seperangkat pertanyaan atau tugas yang diren¬ 
canakan untuk memperoleh informasi tentang trait atau atribut pendidikan 
atau atribut psikologik tertentu yang setiap butir pertanyaan atau tugas 
tersebut mempunyai jawaban atau ketentuan yang dianggap benar. Respons 
peserta pada satu tes harus dapat dikategorikan sebagai respons yang benar 
atau respons yang salah. Jika ada pertanyaan atau tugas yang harus diker¬ 
jakan oleh seseorang, tetapi tidak ada jawaban atau cara mengerjakan yang 
benar atau salah, maka pertanyaan atau tugas tersebut bukanlah suatu tes dan 
disebut dengan non tes. 

Pada non tes, tidak ada jawaban benar atau jawaban salah, tetapi dari 
respons peserta pada jawaban non tes dapat dilihat arah kecenderungannya. 
Itu berarti bahwa informasi mengenai hasil belajar tidak hanya dapat 
diperoleh melalui tes, tetapi dapat juga diperoleh melalui alat pengukuran 
yang disebut non-tes. seperti rating scale (skala lajuan), dan attitude scale 
(skala sikap). 

Alat ukur untuk memperoleh informasi hasil belajar yang diungkap 
melalui non-tes terutama digunakan untuk mengetahui apa yang dilakukan 
siswa daripada apa yang diketahui atau dipahaminya. Alat ukur non-tes 
berhubungan dengan penampilan yang dapat diamati daripada pengetahuan 
dan proses mental lainnya yang tidak dapat diamati dengan indera manusia. 
Namun demikian, alat ukur non-tes ini merupakan satu kesatuan dengan alat 
ukur tes untuk memperoleh informasi hasil belajar yang lebih menyeluruh. 
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SKALA LAJL'AN (RATING SCALE) 

Skala lajuan adalah alat ukur non-tes yang menggunakan suatu 
nro^edur terdruktur untuk memperoleh informast mengenai sesuatu yang 
diobservasi vana menyatakan posisi sesuatu dalam hubungannya dengan 
sesuatu yang lain. Biasanya skala lajuan terdiri dan: (1) pernyataan tentang 
SS» scsuaiu yang diukurdan (2) "»,1» yang 

menunjukkan peringkai alau karakter atau kualitas yang dimiliki oleh se 
suatu tersebut. 

Ada beberapa tipe skala lajuan. di antaranya: (1) numericai raung 
S calc dan (2) descriptive graphic rating scale 


\ n merica l Rating Scale 

Komponen pada numericai rating scale adalah 
k ir ikter"*stik atau kualitas tertentu dari sesuatu yang diukur kebuudaann> . 
v-.il» diikuti oleh bilangan yang menunjukkan kualitas keberadaan terse u 


Contoh 6.1 

Berikut ini adalah contoh numericai rating scale yang. 
tingkat partisipasi siswa dalam diskusi kelompok yang dapat diisi oleh g 

atau pengamat. 


Nyatakan tingkatan dari setiap pernyataan atau jawaban dan Peri y laan atau 
dengan cara melingkari salah satu bilangan yang ada di depa pe y 
pertanyaan tersebut. Bilangan-bilangan itu mengandung makna: 

1 = tidak memuaskan 

2 = di bawah rata-rata 

3 = rata-rata 

4 = di atas rata-rata 

5 = sempurna 


Nama Siswa yang Diamati:--—--- 

1 Seberapa aktifkah siswa berpartisipasi dalam kegiatan 
diskusi? 

2 Seberapa baikkah jalinan hubungan baik antara siswa 
tersebut dengan kelompoknya? 

3 Seberapa besar kontribusi siswa tersebut dalam 
pemecahan persoalan yang muncul dalam diskusi? 

4. d st 


12 3 4 5 
12 3 4 5 
12 3 4 5 
12 3 4 5 


Bcd>VI. NowTefr 


125 


Perhatikanlah bahwa rating dari 1 sampai dengan 5 tersebut dapat 
dimodifikasi menjadi 4 skala, misalnya 1 = kurang. 2 = cukup. 3 = bagus, 
dan 4 = bagus sekali, atau menjadi 3 skala, misalnya 1 = kurang. 2 = cukup, 
dan 3 = bagus. 

Numerical rating scale dapat saja dipakai untuk mengukur kemam¬ 
puan seseorang dalam kegiatan tertentu yang terkait dengan aspek 
psikomotor. 

Contoh 6.2 

Berikut ini adalah contoh numerical rating scale untuk penggunaan termo¬ 
meter air raksa yang dapat diisi oleh guru atau pengamat. 

Petunjuk: 

Nyatakan tingkatan dari setiap pernyataan atau jawaban dari pertanyaan berikut ini 
dengan memberi tanda centang (\3 pada kolom yang tepat yang ada di depan 
pernyataan atau pertanyaan tersebut. Angka-angka itu mengandung makna: 

5 = sangat tepat 
4 = tepat 
3 = agak tepat 
2 = tidak tepat 
1 = sangat tidak tepat 


Nama Siswa yang Diamati: 


No 

Indikator 

Jawaban 

1 

2 

3 

4 

5 

1 

Cara mengeluarkan termometer dari tempatnya. 






2 

Cara menurunkan air raksa 






3 

Cara memasang termometer pada orang yang diukur 
suhunya. 






~4 

Cara mengambil termometer dari tubuh orang yang 
diukur suhunya 



s 



5 

Cara membaca tinggi air raksa dalam pipa kapiler 
termometer 

_i 






Descriptive Graphic Rating Scale 

Tipe rating scale ini hampir sama dengan numerical rating scale. 
Bedanya adalah bahwa kualitas sesuatu yang dikerjakan digambarkan dalam 
suai u kontinum pada suatu garis. 
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Contoh 6.3 . 

o adalah contoh graphic numercal rating scole yang ter ai 

JUosi kelompok yabg dapa, diisi o,eh guro 

atau pengamat. 

M» ungka- « seuap pemy-n i.w.ban dan peuany.an benku, ini 
dengan cata memberi landa eemang (J) pada lempal yang sesna.. 

Nama Siswa yang Diamati: 


3. 


4 . 


Seberapa aktifkah siswa 
berpartisipasi dalam 
kegiatan diskusi? 
Seberapa baikkah jalinan 
hubungan baik antara 
siswa tersebut dengan 
kelompoknya? 

Seberapa besar kontribusi 
siswa tersebut dalam 
pemecahan persoalan 
yang muncul dalam 
diskusi? 
dst 


Sangat 

A V 11 f i 1 > 

Sangat 

, -i_i Tidak 


^ 1 Aktif 

Sangat 

Diil' i i i 

Sangat 

, Tidak Baik 

Sangat 

Dornrti i l i 

j | t 

Sangat 
, Tidak 

“““ l— 1 '' 1 1 ' Berarti 


SKALA SIKAP 

ngerti SK X 

Bab VII. Seperti konstruks psikologik lainnya, m P 

memenuhi dua kriteria yaitu dapat diamati dan dapat diukur. 

Ada beberapa cara untuk mengukur skala sikap, d. antaranya adalah 
Skala Likert, Skala Thurstone. dan skala beda semantik. 

Skala Likert . , 

Model pengukurandenga an skala ^ niodel- 

summated ratings (Sumadi -urya » . model summated 

nya pertama kali diusulkan oleh Rensis Likert maka model f — 

rlings dikenal dengan skala 

pada dasarnya tergolong untuk mengukur sikap, y g 
disebut skala sikap. 


Bab-VI. hJorvT&y 
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Prinsip utama skala Likert adalah menentukan lokasi kedudukan se¬ 
seorang dalam suatu kontinum suatu aspek terhadap suatu objek, mulai dari 
sangat negatif sampai dengan sangat positif. Penentuan lokasi itu dilakukan 
dengan mengkuantifikasi pendapat seseorang terhadap pertanyaan atau 
pernyataan yang disediakan. Pengkuantifikasian itu untuk menunjukkan 
intensitas sikap yang diukur. 

Untuk skala Likert digunakan skala lima dengan 1 (satu) berani sangat 
negatif dan skala 5 (lima) berani sangat positif. Bentuk pernyataan sangat 
negatif dapat diganti sangat tidak setuju, sangat tidak baik, sangat tidak 
menarik, dan semacamnya tergantung aspek apa yang dipersoalkan. Kadang- 
kadang, skala yang di tengah yaitu 3 (netral) dihilangkan, sehingga hanya 
terdapat, misalnya 1 (sangat tidak setuju), 2 (tidak setuju). 4 (setuju), dan 
5 (sangat setuju). Namun sebenarnya tindakan menghilangkan rating vang di 
tengah dapat dianggap sebagai tindakan yang mengingkari kenyataan, sebab 
pada hakikatnya dalam kehidupan sehari-hari keadaan yang di tengah itu 
ada, mLalnya dalam Pemilu Presiden, seseorang tidak menyatakan pen¬ 
dapatnya mengenai siapa yang pantas menjabat presiden. 

Terkait dengan ini, Permendikbud Nomor 104 Tahun 2014, menye¬ 
derhanakan urutannya menjadi 4 kelompok, yaitu: 4 - selalu, 3 - sering, 2 - 
kadang-kadang, dan 1 - tidak pernah. Kadang-kadang membedakannya 
menjadi 4 - sangat baik (SB), 3 - baik (B), 2 - sukup (C), dan 1 - kurang 
(K). Tentu saja respons untuk skala Likert bisa bermacam-macam bentuk¬ 
nya, tergantung pendapat penilai itu sendiri. Masing-masing mempunyai 
keunggulan dan kelemahan sendiri-sendiri. 

Secara umum, Gable (1986: 42) membedakan menjadi 5 macam ting¬ 
katan ( rating ), yaitu: (1) rating agreement , (2) raling frecjuency , (3) rating 
importance, (4) rating quality , dan (5) rating likelihood. 

Contoh rating agreement adalah: strongly aggree , agree, undecided , 
disagree, dan strongly disagree. Contoh rating frequency adalah: always, 
usuaily, about half the time , seldom, dan never. Contoh rating importance 
adalah very important. important, moderately important. of little important, 
dan unimportat . Contoh rating quality adalah: excellent. above average , 
average, below average , dan extremely poor. Contoh rating likelihood 
adalah: always true, often true, occasionally true, usuaily not true, dan 
aimost never true. 

Skala Likert biasanya diisi oleh responden (seseorang yang dikenai 
angket) berdasarkan pendapatnya sendiri yang harapannya tanpa dipenga¬ 
ruhi oleh orang lain. 
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Contoh 6.4 

Berikut ini adalah contoh skala Likert dengan menggunakan P ll > han si *"| a ‘ 
setuju, setuju, tidak mempunyai pendapat, tidak setuju, dan sangat t.dak 

setuju. 

Jawablah^semua butir di bawah ini dengan memberi tanda cek (V) pada tempat yang 
tersedia sesuai dengan keyakinan Anda! 

1 . Matematika sangat berguna dalam ke hidupan sehari ban.-_-- 

1 —as» HK-n-sr 

seluiu 1 1 pendapa !__L_J*!“L U . - -L- —-1 

2. Untuk mendapat nilai yang tinggi pada mata pelajaran matematika, saya harus 

bekerja keras. _ ____-j— ---j 

sangat I setujui ^^mpTTn^i 1“^ ] 

setuiu 1 1 pendapat _-1 

3. Sava harus memperhatikan dengan seriu s saat guru bejhkaradMjeEHLfe- 

sangat setuju tidak mempunyai tidak sangal V dak 

selu i u 1 I pendapat --- 1 

4. Saya tidak perlu belajar keras, karena guru akan memberi nilai baik kepada 


"wT setuju bdSTl^wi San Sf k 


5 Sa va belajar matematika karena terpaksa. _ 

sangat setuju lidakmcmpunyai 

pendapat 


seiiiju_ tidak setuju 


Contoh 6.5 

Kadane-kadang skala sikap pada Contoh 6.4 dinyatakan dalam bentuk yang 
<« "wah ini. Hal itu dilakukan uniuk menghemat 

kertas 

Jawablah semua butir di bawah ini dengan memberi tanda cek r-j pada tempat yang 
tersedia sesuai dengan keyakinan Anda! 

Keterangan: SS = sangat setuju 

S = setuju 
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TMP = tidak mempunyai pendapat 

TS = tidak setuju 

STS = sangat tidan setuju 


No 

Pernyataan 

SS 

S 

TMP 

TS 

STS 

1 , 

Matematika sangat berguna daiam 
kehidupan sehari-hari. 






2 

Untuk mendapat nilai yang tinggi pada 
mata pelajaran matematika, saya harus 
bekerja keras. 






3 

Saya harus memperhatikan dengan serius 
saat guru berbicara di depan kelas. 


I 

j 




4 

Saya tidak perlu belajar keras, karena guru 
akan memberi nilai baik kepada saya. 




Kadang-kadang skala Likert dipakai untuk mengukur pernyataan 
kognitif, yaitu pernyataan tingkah laku yang berkenaan dengan suatu objek 
sikap tertentu. Ada dua macam pernyataan kognitif. Pertama, pernyataan 
yang menyatakan apa yang akan dilakukan terhadap suatu objek sikap 
tertentu. Misalnya: Bila saya boleh memilih maka saya akan membeli ken¬ 
daraan bermesin diesel. Kedua, pernyataan yang menyatakan kecen¬ 
derungan tindakan sosial. Misalnya: Pemerintah seharusnya meringankan 
pajak bagi kendaraan bermesin diesel. 

Skala Thurstone 

Model pengukuran skala Thorstone dikembangkan pertama kali oleh 
Louis Thurstone (Sumadi Suryabrata, 2000: 200). Thurstone oleh para ahli 
ilmu-ilmu sosial dianggap “bapak” penyusunan skala untuk mengukur si¬ 
kap. 

Skala Thurstone mirip dengan skala Likert, namun biasanya rentang¬ 
an skala pada skala Thurtone lebih lebar, berkisar antara 7 sampai dengan 
11 skala. Pada skala Thurstone, responden juga hanya membubuhkan tanda 
cek (V) pada tempat yang disediakan. Berikut ini adalah contoh skala 
Thurstone. 


Contoh 6.7 

Berikut ini adalah contoh skala Thurstone untuk mengukur sikap siswa 
terhadap matematika dan pembelajarannya. 
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Pe ' Unj Beniah tanda cek (%') pada tempat yang disediakan. Skala 7 menunjukkan 
sangat setuju, sedangkan skala 1 menunjukkan sangat tidak setuju. 


I No ! Pemvataan _l 

1 

_Li 


, . < ‘ 6 s 7 s 

1 

Matematika sangat berguna daiam kehidupan 
sehari-hari. 




i 

2 

Untuk mendapat nilai yang tinggi pada mata 
pelajaran matematika, saya harus bekerja 
keras. 







! 

_i 

j 

3 

Saya harus memperhatikan dengan serius saat 
«uru berbicara di depan kelas. 





i _— 


i 

- 1 

4 

Saya tidak perlu belajar keras, karena guru 
akan memberi nilai baik kepada sa\a. 




1 i i ! 1 

i : 1 I 1 

j-j--}— j 

5 

Sava belajar matematika karena terpaksa. 

— 


— 

I 1 J_!. j 


Skala Beda Semantik 

Skala-beda semantik mirip dengan skala Thurstone, namun P^ka i 
beda semantik, seseorang diminta pendapatnya untuk ^atu hal dan herbag. 
sudut pandang yang berbeda. Berikut ini contoh skala beda semantik. 


Contoh 6.8 

Berikut ini Sdalah skala beda semantik untuk mengukur sikap siswa ter i •- 
dap mata pelajaran yang diikutinya. 

Petunjuk: Berilah tanda cek (sl) pada tempa, yang disediakan sesuai dengan perasaan 
dan atau pendapat Anda! 

1 . 


2 . 


ata nelaiaran Matematika: _____,——, 

___— - -- - i 

r ■> - --- 

Menyenangkan 








Membosankan 

Sulit 








Mudah 

Bermanfaat 








Sia-sia j 

Menantang 








Menjemukan 

Hafalan 




_ 

_ 

_ 


Penalaran __ j 


ata pelajaran Seiaran: 
Menyenangkan 



-.— 


—- 



Membosankan 

Suiit 








Mudah 

Bermanfaat 








Sia-sia 

Menantang 



r ' 





Menjemukan _ 

Hafalan 



r 



.— 


Penalaran 
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Perlu diketahui bahwa harus digunakan kata sifat pada skala beda 
semantik, misalnya menyenangkan-membosankan dan sulit-mudah. Tidak 
boleh digunakan kata tidak, misalnya menyenangkan-tidak menyenangkan, 
sulit-tidak sulit. 

Angket 

Kadang-kadang instrumen non tes dibuat dalam bentuk yang menye¬ 
rupai angket, walaupun pada dasarnya angket tersebut kalau ditelusur lebih 
dalam sebenarnya adalah skala Likert atau skala Thurstone. Model angket ini 
dipilih karena bisa lebih luwes karena option (pilihan jawaban) bisa 
beraneka ragam. 


Contoh 6.9 

Berikut ini adalah angket untuk mengukur motivasi siswa dalam pembe¬ 
lajaran matematika. 

Petunjuk: 

Jawablah semua butir soal di bawah ini dengan melingkari jawaban yang paing tepat 
sesuai dengan kondisi Anda! 

1. Matematika sangat berguna dalam kehidupan sehari-hari. 

a. sangat setuju 

b. setuju 

c. tidak mempunyai pendapat 

d. tidak setuju 

e. sangat tidak setuju 

2. Untuk mendapat nilai yang tinggi pada mata pelajaran matematika, saya harus 
bekerja keras. 

a. sangat setuju 

b. setuju 

c. tidak mempunyai pendapat 

d. tidak setuju 

e. sangat tidak setuju 

3. Saya harus memperhatikan dengan serius saat guru berbicara di depan kelas. 

a. sangat setuju 

b. setuju 

c. tidak mempunyai pendapat 

d. tidak setuju 

e. sangat tidak setuju 

4. Saya tidak perlu belajar keras, karena guru akan memberi nilai baik kepada 
«jaya. 

a. sangat setuju 

b. setuju 

c. tidak mempunyai pendapat 

d. tidak setuju 

e. sangat tidak setuju 
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5. Saya belajar matematika karena terpaksa. 

a. sangat setuju 

b. setuju 

c tidak mempunyai pendapat 

d. tidak setuju 

e. sangat tidak setuju 


BAHAN DISKUSI 


1. Dikaitkan dengan taksonomi Bloom. non-tes lebih tepat dipakai untuk 
mengukur hasil pembelajaran ranah kognitif, ranah ateknf, 
psikomotor? Mengapa? 

Semula, ada lima tingkatan pada skala Likert, yaitu SS = SM\gdi 
S = setuju, TMP = tidak mempunyai pendapat. TS - tidak setuju 
STS = sangat tidak setuju. Setujukah Anda kalau tingkatan TMP 
dihilangkan? Mengapa? 

3. a. Kajilah teori mengenai motivasi berprestasi. 

b Berdasarkan teori tersebut, tulislah indikator pengukurannya, 
c. Berdasarkan indikator tersebut, buatlah skala Likert untuk meng- 
ukur motivasi seseorang. 

4. a Kajilah teori mengenai berbagai jenis pembelajaran kooperatif. 

b Berdasarkan hal tersebut, buatlah skala beda semantik yang men 
nyakan kepada guru mengenai pendapatnya mengenai berbagai 
jenis pembelajaran kooperatif tersebut. 

5. a Kajilah teori mengenai cara start pada lari cepat 100 meter 

b. Berdasatkan itu buatlah numerical rating untuk melihat cara pelan 

melakukan start. 


**** 
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BAB VII 

PENILAIAN RANAH AFEKTIF 

PENDAHULUAN 

Kebanyakan pendidik menganggap bahwa hasil belajar ranah afektif 
tidaklah penting. Mereka mengganggap bahwa yang terpenting adalah hasil 
belajar yang lebih bersifat kognitif (seperti matematika) atau psikomotorik 
(seperti olah raga dan menari). Para pendidik lupa bahwa kadar afektif sese¬ 
orang akan menentukan kehidupan seseorang di masa mendatang. Sebagai 
contoh, jika seseorang percaya bahwa kesehatan adalah penting, maka me¬ 
reka akan berusaha untuk memelihara kesehatannya sepanjang masa. Jika 
seseorang percaya matematika berguna di masa depan dan dia percaya bah¬ 
wa dia dapat mempelajari matematika dengan baik, maka seseoi ang akan 
terus berusaha untuk belajar matematika. Sebaliknya, jika seorang siswa 
percaya bahwa matematika tidak berguna, maka dia akan tidak dengan 
sungguh-sungguh mengikuti pembelajaran matematika di kelas. Dengan 
demikian, para pendidik bertugas untuk selalu meningkatkan kadar afektif 
para peserta didiknya terkait dengan mata kuliah atau mata pelajaran yang 
diampunya, atau paling tidak menjaga agar kadar afektif peserta didiknya 
tidak menurun. Menurunnya kadar afektif peserta didik, menandakan bahwa 
peserta didik tidak tertarik. terhadap mata-kuliah atau mata pelajaran 
tersebut: 

Dengan dapat diukurnya kadar afektif peserta didik secara kontinu, 
pendidik dapat pula melakukan refleksi alas proses pembelajarannya. Jika 
kadar afektif peserta didiknya cenderung menurun, maka terdapat indikasi 
bahwa proses pembelajaran yang telah berlangsung kurang menarik, se¬ 
hingga pendidik dapat melakukan perbaikan proses pembelajaran beri¬ 
kutnya. 
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Misalnya, setelah dilakukan pengukuran, ternyata tingkat kecemasan 
sebagian pesLa didiknya tinggi. Dalam kasus seperti mi, ^‘dik dap a 
mengurangi tingkat kecemasan tersebut. Misalnya dengan menekan kelas 
yang nyaman memberikan kesempatan kepada peserta didik untuk 
memperbaiki pekerjaan, dan menyajikan, ^‘ajaran 

tingkat motivasi sebagian peserta didiknya rendah pendidik dapat 
meningkatkan motivasi dengan berbagai cara, misalnya dengan mengguna- 
kan berbagai macam model persentasi. 

PENGERTIAN RANAH AFEKTIF . nosfi -» 41 

Pengertian afektif menurut Anderson (1981-3) dan Gable (1986-- 
idalah kualitas yang menunjukkan cara khas seseorang menyatakan perasa 

u ... vv o f feeliiu; or expressing their emotion). Ada dua un utama ran 
afektif'Cin pertama adalah melibatkan perasaan dan emosi, dan cin kedua 
adalah perasaan tersebut memiliki pola ungkapan yang relatif sama dalan, 
berbagai situasi ruang dan waktu. Kedua ciri ranah afektif tersebut memuai 
iTga kom^nen afektif, yaitu intensi* (intensitas), direenon (arah), da, 

mrger^as^n atau o^jek). ^ ada beberapa iri ranah afektif, yaitu- 

(1) ada unsur perasaan, (2) ada pola perasaan ( 3 ) ada tmgkatan mten^ - 
perasaan, (4) ada arah perasaan (positif atau ncp/iif). dan (5) ada sa„ara, 
baik sasaran yang diketahui maupun sasaran yang t dak diketahui. 

PENGGOLONGAN RANAH AFEKTIF 

Anderson (1981' 29) mengatakan bahwa terdapat 7 karakterisi 

afe JU) SaP «■"«• « «** f ( ~ “l’ 

(4) pilihan (preference ), (5) kepercayaan din akademik (academic st , 
esJU (6) lokus kendali (locus ofcontrol), dan (7) kecemasan (anx,ety) 

Seperti telah disebutkan di muka, setiap karakteristik mempunya, 
intensitas arah, dan sasaran. Intensitas adalah ukuran derajat atau e u < . 
perasaan, arah adalah sifat yang menyatakan apakah perasaan itu positd. 
netral atau negatif, sedangkan sasaran adalah objek, perilaku, atau gagas i 
yang dituju oleh arah perasaan itu. Kecuali karakteristik tersebut, beber., 
pakL juga memasukkan motivasi ke dalam ranah afeknl (Djeman Marda, 
dkk, 2002: 33; Suryanto, 2001:49). 

Sikap (attitude) diartikan sebagai kecenderungan untuk meresprn 
secara positif (favorable) atau secara negatif Umfavorable )i terhadap su ■ 
obiek (Anderson, 1981: 29). Ini berarti sikap adalah kecenderungan ses> 
rang untuk menanggapi suatu objek dalam tanggapan suka (sikap pos, > 
TJ SI (sfkap negalif). Adanya sikap posi.if snseorang • ,> 
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suatu objek menunjukkan bahwa seseorang tersebut menyenangi dan atau 
menghargai objek tersebut, sedangkan adanya sikap negatif seseorang 
terhadap suatu objek menunjukkan bahwa seseorang tersebut tidak menye¬ 
nangi atau tidak menghargai objek tersebut. Kata-kata yang dapat diguna¬ 
kan untuk mengukur sikap, antara lain, menyenangi - tidak menyenangi, 
diingini - dibenci. menerima - menolak, dan tertarik - tidak tertaiik. Dalam 
pembelajaran matematika, misalnya, dapat diukur sikap siswa terhadap buku 
matematika, belajar matematika, pengerjaan soal matematika, dan guru 
matematika. 

Minat (interest) diartikan sebagai watak yang terorganisir melalui 
pengalaman yang mendorong seseorang untuk mendalami suatu objek, 
pengertian, keterampilan, atau tujuan untuk mendapatkan suatu kemahiran 
atau penguasaan tertentu (Anderson, 1981: 30). Dalam pembelajaran 
matematika, misalnya, dapat diukur minat siswa untuk mengikuti pelajaran 
matematika, mempelajari tokoh-tokoh matematika, dan menggunakan 
matematika di luar kelas. 

Nilai (value) diartikan sebagai objek, aktivitas, atau pandangan yang 
diapresiasi oleh seseorang dalam mengarahkan minat, sikap, atau kepuas¬ 
annya (Anderson, 1981: 31). Dalam pembelajaran matematika, misalnya, 
dapat diukur pandangan siswa terhadap guru matematika dan penggunaan 
matematika. Misalnya siswa memandang penting belajar matematika, maka 
nilai mereka terhadap matematika tinggi. 

Pilihan (preference) adalah kecenderungan untuk memilih suatu objek, 
aktivitas, atau gagasan dibandingkan dengan objek, aktivitas, atau gagasan 
lain (Anderson, 1981: 32). Pilihan melibatkan pemilihan di antara dua objek, 
dua aktivitas, atau dua gagasan atau lebih. Oleh karena itu, biasanya pilihan 
bersifat relatif, misalnya lebih menyenangi ini daripada itu, lebih suka 
menjadi itu daripada ini. Dalam pembelajaran matematika, misalnya, dapat 
diukur pilihan siswa terhadap berbagai hal, misalnya antara mempelajari 
matematika dibandingkan dengan mata pelajaran lain dan antara menjadi 
matematikawan atau menjadi dokter. 

Konsep diri ( self-esteem ) diartikan sebagai persepsi seseorang terha¬ 
dap dirinya sendiri (Anderson. 1981: 32). Menurut Smith (Tim Pascasarjana 
UNY, 2003b: 10), konsep diri adalah evaluasi yang dilakukan seseorang 
terhadap kelemahan yang dimilikinya. Dalam pembelajaran matematika, 
misalnya, konsep diri siswa dapat diukur melalui kepercayaannya dalam 
mempelajari matematika atau bagian-bagiannya, kepercayaannya dalam 
mengharapkan pckeijaun kelak jika menguasai matematika, dan keper¬ 
cayaannya dalam menyelesaikan soal-soal matematika. 

Lokus kendali (locus of control) adalah seberapa jauh seseorang dapat 
menerima sesuatu karena tindakannya atau konsekuensi dari tindakannya 
(Anderson, 1981: 33). Seseorang dengan lokus kendali internal adalah orang 



136 


8i idiyoncr, pen$a*\tar Pe*ulaiaru Ha-iil 3eixyicn 


vang percaya bahwa berhasil atau gagal adalah karena usahanya =fndm. 
SeJorang dengan lokus kendali eksternal cenderung lebih yaktn bahwa 
faktor lain, seperti kemujuran atau tindakan orang lain, yang menyebabka 
berhasil atau gagal. Dalam konteks ini, seseorang yang yakin bahwa 
keberhasilan di sekolah karena kemujuran atau faktor lmnnya cenderung 
untuk tidak mau bekerja keras. Di sisi lain siswa yakin b ^akeberhas. 
atau kegagalan terutama dikarenakan usahanya sendm dapat diharapkan 
untuk mau bekerja keras. Dalam konteks pembelajaran, lokus Kendal, dap 
diukur dari seberapa jauh seorang siswa percaya bahwa apa vang 
diperolehnya .misalnya nilai untuk mata pelajaran tertentu) adalah karena 
usahanya sendiri atau karena faktor-faktor lain di luar dirinya. 

Kecemasan ( avdety. ) diartikan sebagai pengalaman mendapatkan 
tekanan vang menghasilkan ancaman kepada seseorang, baik secara rn 
maupun 'secara imajiner (Anderson, 1981:34). Senada dengan >tu Hall, 
Lindsay, dan Campbell (1970) mengatakan bahwa kecemasan adalah 
pengalaman menegangkan sebagai akibat dari ketakutan, baik keta¬ 
kutan karena sesuatu yang bersifat nyata atau bersifat imajinatif. 
Dalam pembelajaran matematika, misalnya, dapat diukur kecemasan 
seseorang menempuh tes matematika, kecemasan mengerjakan tugas 
matematika, dan kecemasan seseorang menghadapi guru matematika. 

Beberapa pakar memasukkan motivasi ke dalam ranah afektif. Moti¬ 
vasi adalah proses internal yang mengaktifkan, membimbing dan mem¬ 
pertahankan perilaku dalam suatu rentang waktu tertentu (Muhamad Nu 
1999' 2) Dalam bahasa sederhana, motivasi adalah apa yang mcm 
seseorang berbuat, membuat seseorang untuk tetap berbuat, dan menen¬ 
tukan ke arah mana seseorang akan perbuat. Motivasi dapat bervariasi dai 
intensitas dan arah. Motivasi tidak hanya penting untuk menjad^kan sis 
terlibat dalam kegiatan akademik, tetapi juga penting dalam menentukan 
seberapa jauh siswa akan belajar dari suatu kegiatan pembelajaran atau 
seberapa jauh menyerap informasi yang disajikan kepada mereka. 

Menurut Krathwol (dalam Reynolds, Livingstone, dan Willson. 2010: 
175), ada lima tingkatan ranah afektif, yaitu: (1) menerima (receivmg auiu 
attending), (2) merespons ( responding ), (3) menilai ( valuing ), ) meng 
(i organization ), dan (5) memjadi karakter (clniracicnzimon). 

Receiving merupakan keinginan siswa untuk memperhatikan feno¬ 
mena atau stimuli tertentu, misalnya kegiatan di kelas, buku-buku 
musik. Dari sudut pandang pendidik, receiving berkenaan dengan upaya 
untuk mendapatkan dan mengarahkan perhatian peserta didik agar dapat 
mengikuti pembelajaran dengan baik. Tugas pendidik adalah mengarahkan 
oeihaiim neserta didik pada fenomena yang menjadi objek pembelaja 
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Responding merupakan partisipasi aktif peserta didik. Pada tingkatan 
ini, peserta didik tidak saja memperhatikan fenomena tertentu yang muncul, 
tetapi juga sudah memberikan respons dalam berbagai cara. Hasil pem¬ 
belajaran pada tingkatan ini adalah pemerolehan respons, keinginan untuk 
memberikan respons, dan kepuasan dalam memberikan respons. Pada 
tingkatan ini muncul minat, yaitu hal-hal yang menekankan kepada 
pencarian hasil dan kepuasan pada aktivitas tertentu. 

Valuing berkenaan dengan penentuan nilai atau worth yang dilekatkan 
oleh siswa kepada objek, fenomena, atau behavior tertentu. Rentangan dari 
valuing ini mulai dari penerimaan suatu nilai (yang dimaksudkan untuk 
meningkatkan keterampilan) sampai dengan komitmen yang tinggi terhadap 
sesuatu. Hasil belajar pada tingkatan ini berkenaan dengan perilaku yang 
konsisten dan stabil untuk membuat nilai. Pada tingkatan ini, muncul 
attitudes (sikap) dan appreciation (apresiasi). 

Organizadon berkaitan dengan pengumpulan nilai-nilai yang berbeda 
dalam satu kaitan, men>elesaikan konflik yang ada, dan mulai membangun 
sistem nilai internal yang konsisten. Hasil pembelajaran pada tingkatan ini 
adalah konseptualisasi nilai atau organisasi sistem nilai. 

Pada tingkatan characterization , seseorang telah memiliki sistem nilai 
yang mengendalikan perilakunya sehingga terbentuk gaya hidup ( life style). 
Gaya hidup ini akan bertahan lama dan sulit untuk diubah. 


INSTRUMEN PENILAIAN RANAH AFEKTIF 

Paling tidak ada 3 model instrumen untuk mengukur ranah afektif, 
yaitu: skala Likert, skala Thurstone, dan skala beda semantik ( semantic 
differential scale). Demi kemudahan, kadang-kadang skala-skala tersebut 
dibuat dalam bentuk yang menyerupai kuesioner atau angket. 

Skala Likert, skala Thurstone, skala beda semantik, dan skala Likert 
dalam bentuk angket telah dibicarakan pada Bab VI. 


Contoh 7.1 

Berikut diberikan lagi contoh skala Likert mengenai sikap siswa terhadap 
matematika yang ada di Bab VI. 


Petunjuk: 

Perhatikan pernyataan-pernyataan di bawah ini. Untuk masing-masing pernyataan, 
berikan pendapat Anda dengan memberi centang pada jawaban SS, S, TMP, TS dan 
STS dengan penjelasan sebagai berikut 
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SS = sangat setuju 
S = setuju 

TMP = tidak mempunyai pendapat 

TS = tidak setuju 

STS = sangat tidak setuju 


Mn 

Pernyataan 

Jawaban 

SS 

S 

TMP 

TS 

STS 

I 

Matematika sangat berguna dalam 
kehidupan sehari-hari. 







Untuk mendapat nilai yang tinggi pada 
mata pelajaran matematika, saya harus 
belajar densan simsauh-sunscuh. 


_ 




! 3 

j 

Saya harus memperhatikan dengan serius 
saat guru matematika berbicara di depan 
kelas 

i 

i 

1 




4 

Saya tidak perlu belajar keras, karena 
guru akan memberi nilai baik kepada 






5 

saya. _______ ___ 

Sava belajar matematika karena terpaksa^ 


— 





Perhatikan tiga butir pertama dari skala Likert pada Contoh 7.1. Pada 
tiga bu^r fersebut, jika responden memilih SS -ka^ta mendapat 
skor 5- jika responden memilih S, maka dia mendapat sk J p 

den mimilih TOP. ™la dia ™„dapa, skor 3; jika r«pon<.en momrkh TJk 
maka dia mendapat skor 2; dan jika responden memilih STS, maka d.a 
mendapat skor 1. 

Di sisi lain, untuk butir nomor empat dan lima, J ika ^ s P on ^ ^ a 
milih SS maka dia mendapat skor 1; jika responden memilih S, ^akajlia 
mendapat skor 2; jika responden memilih TMP, 

jika responden memilih TS. maka dia mendapat skor 4, dan jika responde 
memilih STS, maka dia mendapat skor 5. 

Ini berarti, dua kelompok butir instrumen tersebut mempunyai arah 
yang tela—. Tiga bu, „yang peria™ dika,akan 

mempunyai arah positif, sedangkan dua butir yang terakhir dikatakan mem 
punyai arah negatif. 

Pada Kurikulum 2013, seperti yang tertuang pada P^mend.kbud l04 
Tahun 2014 tentang Penilaian Hasil Belajar penskoran ^p menggunakan 
skala empat, yaitu: 4 = sangat baik, 3 = baik, 2 = cukup, dan 1 - kurang, atau 
4 = selalu, 3 = sering. 2 = jarang, dan 1 = sangat jarang. 
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PENGEMBANGAN INSTRUMEN RANAH AFEKTIF 

Pada dasarnya pengembangan alat ukur ranah afektif, mengikuti 
langkah-langkah yang telah dikemukakan pada Bab IV. 

Secara ringkas, seperti halnya penyusunan instrumen pada ranah 
kognitif, langkah-langkah penyusunan instrumen ttermasuk untuk ranah 
afektif) adalah: (Djemari Mardapi, dkk, 2002: 20) (1) menyusun spesifikasi 
instrumen, (2) menulis butir-butir instrumen, (3) menelaah butir-butir ins¬ 
trumen, (4) melakukan uji coba, (5) menganalisis butir instrumen berdasar 
uji coba, (6) melakukan revisi terhadap butir-butir instrumen yang kurang 
baik, jika memungkinkan, (7) merakit instrumen dengan menetapkan butir- 
butir yang dipakai, (8) melaksanakan pengukuran (pengujian) pada subjek 
yang dikehendaki, (9) menafsirkan hasil yang diperoleh. 

Pada bagian ini dicontohkan pengembangan spesifikasi dan butir-butir 
instrumen untuk sikap yang dinyatakan dalam bentuk angket. 


Contoh 7.2 

Berikut ini adalah contoh spesifikasi instrumen untuk sikap. 

a. Tujuan: untuk mengukur sikap siswa terhadap matematika dan pem¬ 
belajarannya di kelas. i 

b. Kisi-kisi: 

1) Definisi konseptual: Sikap terhadap matematika dan pembelajarannya 
di kelas adalah kecenderungan untuk merespon secara positif 
(favorable ) atau secara negatif ( unfavorable ) terhadap matematika dan 
pembelajarannya di kelas. 

2) Definisi operasional: Sikap terhadap matematika dan pembelajarannya 
di kelas adalah kecenderungan untuk memberikan pendapat mengenai 
kegunaan matematika, cara guru membuka pembelajaran, media pem¬ 
belajaran yang digunakan guru, interaksi guru dan siswa, dan cara' 
pemberian umpan balik kepada siswa. 

3) Indikator/Deskriptor: 

- - (1) sikap siswa terhadap kegunaan matematika : } 

(2) sikap siswa terhadap cara guru membuka pembelajaran 

(3) sikap siswa terhadap media yang digunakan guru 

(4) sikap siswa terhadap interaksi guru dan siswa di kelas 

(5) sikap siswa terhadap cara pemberian umpan balik kepada siswa 

4) Jenis instrumen: skala Likert (dalam bentuk angket) 

5) Banyaknya butir dan nomor butir: 
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Budcyoruz Ha^Belojar 


No 

Indikator/Deskriptor 

Nomor 

Butir 

(arah 

positif) 

Nomor 

Butir 

(arah 

negatif) 

Banyaknya 

Butir 

1 

Sikap siswa terhadap kegunaan 
matematika 

I 

8 


2 

Sikap siswa terhadap cara guru 
membuka pembelajaran 

2 

9 

2 

3 

Sikap siswa terhadap media yang 
digunakan guru 

3,4 

10 

3 

4 

sikap siswa terhadap interaksi guru 
dan siswa di kelas 

5 

11, 12 

3 

5 

sikap siswa terhadap cara pemberian 
umpan baiik kepada siswa 

6. 1 

1 

j-—— 

13.14, 

15 

9 1 
_ 1 


Perhatikan bahwa banyaknya butir dengan arah positif dan dengan 
arah negatif hampir seimbang. Hal ini diperlukan agar para responden yang 
Se„“ g “s,n,J„ membaca dengan „ngguh-sunggeh peramannya 
Perhatikan juga bahwa ada minimal dua butir instrumen pada se p 
indikator. Hal ini diperlukan, karena pada uji coba bisa saja butir tnstrumen 
gugur karena, tidak memenuhi persyaratan. 

Setelah dibuat spesifikasi, ditulis butir-butir untuk spesifikasi ins- 
trumen pada Contoh 7,3- 


Contoh 7.3 

Berikut ini adalah contoh butir instrumen untuk mengukur skala sikap 
berdasarkan spesifikasi pada Contoh 7.2. 

1. Menurut Anda, apakah seseorang perlu menguasai matematika untuk bekal 
kehidupan di masa depan? 

a. sangat perlu 

b. perlu 

c. netral 

d. tidak perlu 

d. sangat tidak perlu 

2. Menurut pendapat Anda, bagaimana cara guru dalam memulai pembelajaran ? 

a. sangat menarik 

b. cukup menarik 

c. tidak mempunyai pendapat 

d. tidak menarik 

e. sangat tidak menarik 
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5. Menurut pendapat Anda, bagaimana kualitas media yang digunakan guru? 
a sangat bagus 
b, cukup bagus 
c tidak mempunyai pendapat 
e tidak bagus 
d <ama sekali tidak bagus 

PENSKORAN INSTRUMEN PENILAIAN RANAH AFEKTIF 

Sistem penskoran instrumen afektif tergantung kepada jenis instru¬ 
men yang dipakai. Jika instrumen yang dipakai adalah skala Likert dengan 5 
skala (SS. S, N, TS. STS). maka skor tertinggi setiap butir adalah 5 dan skor 
terrendah adalah 1. Jika digunakan skala Thurstone dengan 7 skala, maka 
skor tertinggi setiap butir adalah 7 dan skor terrendah adalah 1. Jika 
digunakan angket dengan 4 pilihan, maka skor tertinggi untuk setiap butir 
adalah 4 dan skor terrendah adalah 1. Kurikulum 2013 menggunakan 4 ska¬ 
la. yaitu 4 = sangat baik. 3 = baik. 2 = cukup, dam 1 = kurang. 

Dengan menjumlahkan skor untuk seluruh butir, maka diperoleh skor 
total yang merupakan skor untuk ranah afektif. Jika banyaknya butir cukup 
banyak, skor total ini dapat dianggap skor‘suatu variabel yang berskala 
interval, walaupun skor untuk masing-masing butir merupakan skor dengan 
skala ordinal. 

PENAFSIRAN HASIL PENGUKURAN RANAH AFEKTIF 

Biasanya nilai untuk ranah afektif tidak dalam bentuk kuantitatif, te¬ 
tapi dalam bentuk kualitatif, misalnya sangat positif (sangat tinggi), positif 
(tinggi), cukup, negatif (rendah), dan sangat negatif (sangat rendah). Oleh 
karena itu, diperlukan aturan untuk mengkonversi dari skor mentah ke nilai 
hasil pembelajaran. Aturan itu dapat mengacu kepada patokan tertentu atau 
dengan menggunakan acuan norma. 

• Misalnya skor terrendah yang dicapai siswa adalah 5 dan skor ter¬ 
tinggi adalah 100, maka dengan acuan patokan, dapat dilakukan konversi 
dengan aturan berikut: 


Tabel 7.1. Aturan Konversi Skor dengan Penilaian Acuan Patokan (PAP) 


Skor 

Nilai 

5 < skor < 20 

Sangat rendah 

21 < skor < 40 

Rendah 

41 < skor < 60 

Cukup 

61 < skor < 80 

Tinggi 

81 < skor < 100 

Sangat tinggi 
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Budiycmer, penatar Penilaiarv HatilSelajar 


Jika digunakan 
kelas dan simpangan 
simpangan baku s. 
berikut. 


acuan norma, maka diperlukan penghitungan rataan 
baku kelas. Misalnya rataan kelasnya adalah X dengan 
maka kita dapat dilakukan konversi dengan aturan 


Tabel 7.2. Aturan Konversi Skor dengan Penilaian Norma (PAN) 


Skor 

Nilai 

.—-— ——- - r 

skor < X - l,5s 

Sangat rendah 

X - l.5s < skor < X - 0,5s 

Rendah 

X - 0.5s < skor < X + 0,5s 

j Cukup 

X -r 0,5s < skor < X -r l,5s 

C Tinggi 

|_ skor > X + 1.5s 

T Sangat tinggi j 


Kadang-kadang hanya dibedakan menjadi tiga tingkatan ^ itu ^ 
rane sedang dan bagus atau empat tingkatan ya.tu sangat baik, baik cukup 
InSum^lik. dinyatakan data, tiga «f* «** P " 1 " 

dilakukan modifikasi terhadap Tabel 7.1 dan Tabel 7.2 d, atas. 


VALIDITAS INSTRUMEN RANAH AFEKTIF 

Seoerti dibicarakan di Bab II, instmmen penilaian ranah afektif dapat 
divalidiSain; “ga ca«. yaitu dengan validasi isi (ah,i,, valtdas, betda- 
sar kriteria, dan validasi konstruks. 

ANALISIS BUTIR PADA INSTRUMEN RANAH AFEKTIF 

Setelah proses validasi (isi) dilakukan, maka untuk memilih butir-butir 

sekitar 6-10 kali banyaknya butir instrumen (Gable, 1986 . 37 ). 

Scbirh mstrumen tentu terdiri dari sejumlah butir-butir mcm.mem 
Skor sua a buiir tetsebu, sehausnya menunjukkan kecenderungan yang 
santa dengan skor totalnya, yang dalam hai itu diasumsikan babtv^ko, £ 

mewakili skor konstruks yang iu ur. yang dimaksudkan untuk 

instrumen dianggap mewakili karaktenstika.ek y g bu)jr , e|Sebut 

diukur. Ini berarti harus ada korelasi positif antara s 
dengan skor totalnya. 

Koefisien korelasi antara sko. stiait, bulir dengan skor ut,a dtscbu, 
sebagai indeks konsistensi inietnal bu,i, tetsebu, (oleb Gabie. 1986. 39 
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disebut sebagai criterion of internal consisiency). Untuk menghitung 
konsistensi internal untuk butir ke-i, rumus yang digunakan adalah rumus 
korelasi momen produk dari Kari Pearson berikut. 


= _ nIXY-(VXnIY> _ 

vWx 2 -(XXrxnXY--tIYr) 

dengan: r x> , = indeks konsistensi internal untuk butir ke-i, n = banyaknya 
subjek yang dikenai instrumen, X = skor untuk butir ke-i (dari subjek uji 
coba), dan Y = skor total (dari subjek uji coba). 

Tentu saja, jika terdapat n buah butir, maka akan dilakukan penghi¬ 
tungan sebanyak n kali. Jika indeks konsistensi internal untuk butir ke-i 
kurang dari 0,3 maka butir tersebut harus dibuang. 

Jika instrumennya berupa tes hasil belajar, indeks konsistensi internal 
ini merupakan indeks daya pembeda. Jika untuk angket, indeks konsistensi 
internal ini disebut pula dengan indeks daya pembeda angket 1 . 

Beberapa buku memaknai koefisien korelasi antara skor butir dengan 
skor total sebagai indeks validitas butir. Konsep itu merupakan konsep yang 
salah, sebab tidak dikenal adanya konsep validitas butir. Yang dikenal 
adalah konsep mengenai validitas instrumen. 

Pada beberapa buku, untuk menentukan apakah butir dibuang atau 
dipertahankan pada instrumen dilakukan uji signifikansi koefisien korelasi. 
Cara ini juga tidak tepat, karena pada dasarnya penentuan apakah butir 
dibuang atau dipertahankan dalam instrumen bukan uji signifikansi. 


RELIABILITAS INSTRUMEN RANAH AFEKTIF 

Setelah diperoleh butir-butir yang baik, maka butir-budr yang baik 
tersebut dirakit menjadi sebuah instrumen yang siap untuk digunakan. 
Namun demikian, sebelum instrumen tersebut digunakan, perlu dilihat 
reliabilitasnya terlebih dulu. 

Reliabilitas menunjuk kepada konsistensi pengukuran jika dilakukan 
pengukuran berulang-ulang pada individu-individu atau kelompok-kelom¬ 
pok dalam suatu populasi (AERA> APA , & NCME, 1999: 25). Ini berarti, 
keterandalan suatu tes menunjuk kepada besarnya kesalahan pengukuran 
yang dihasilkan oleh tes tersebut. Semakin besar koefisien keterandalan 
suatu tes akan semakin kecil kesalahan pengukurannya. » 


Penulis tidak menggunakan istilah daya pembeda angket, karena daya pembeda didefinisi¬ 
kan sebagai selisih proporsi kelompok pandai dan kelompok tidak pandai dalam menjawab 
benar butir soal. Dalam angket, misalnya, tidak ada jawaban benar dan jawaban salah, se¬ 
hingga istilah daya pembeda angket dianggap tidak lepat. 
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3 ucUyovur, 


* pevt^uot'a-r P 


Seperti didiskusikan di Bab II, ada tiga cara mencanAoefis ^ ^ 

bilitas (termasuk untuk instrumen ranah etode mana yang 

tes . , b, metode tes ulang, dan (c) metode benmkp^eLMe^e^ ^ 

sebaikn>u dipakai, tidak ada aturan 'u ‘ mudah dilakukan dan ber- 
memilih metode satu kali tes. sebab metode im mudah dilakukan 

biaya murah dibandingkan dengan dua pendekatan yang lainny - ^ 

Untuk metode satu kali tes. biasanya yang d.gunakanada ^ 

alpha dengan menggunakan rumus Cronbach-Alpha, seperu y g 
disampaikan pada Bab III 

BAHAN DISKUSI ikap 

I Pada Kurikulum 201 ? dinyatakan bahwa adai dua jenis^ a P' ra sa 
spiritual dan sikap sosial. Contoh sikap sosial adalah bth j • g 

„ P gin tahu, disiplin, dan peduli lingkungan. Apakah « > k3p 
dicontohkan oleh Kurikulum 2013 rersebu, memenuh, afal 
yang didefinisikan oleh Anderson? Mengapa. 

2. Buatlah spesifikasi dan butir-butir instrumen untuk sikap yang dmy 
kan dalam skala Likert untuk mengukur: 
motivasi berprestasi siswa 

kecemasan siswa menghadapi ujian matematika 
locus kendali siswa 

d. kepercayaan diri akademik siswa i'tafl' 

Dapatkah butir-butir angket Contoh 7.3 dihitung tingkat kesu . 

S»S 8 SLu,lr angket Con.oh 7.3 dihi.ung ungka, daya 
pembedanya ? Mengapa? 

Dapatkah angket Contoh 7.3 diestimasi koefisien reliab.l.tasnya 
rumus KR-20? Mengapa ? Me . 

Manakah yang lebih sulit, mengukur ranah kognitif atau afekt. - 

ngapa? keseriuS' 

Misalnya Anda menggunakan angket untuk ^ da kalau 

an siswa dalam mengikut, pelajaran Matematika.Akukan untuk 
siswa menjawab jujur 1 Mengapa. Apa ya "8 P . l? jelaskan! 

meningkatkan tingkat kejujuran siswa dalam mengisi an e ket. 


a. 

b. 

c. 


3. a. 


b. 


4. 


5 . 


6 . 
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BAB VIII 

PENILAIAN RANAH PSIKOMOTOR 

PENDAHULUAN 

Telah disebutkan di depan bahwa aspek psikomotor menitikberatkan 
kepada hal-hal yang berkaitan dengan cara tindak atau keterampilan gerak 
otot. Menurut Reynolds, Livingstone, dan Willson (2010: 175) ranah ini 
berkaitan dengan “ physical activity ” yang biasanya terkait dengan “ physical 
education, dance, speech, theater, laboratory (e.g. biology and Computer 
Science), or carrer-technical classes such as woodworking, electronics , 
automotive , or metalwork ”. Tujuan pembelajaran di ranah psikomotor sela¬ 
lu terkait dengan tujuan di ranah kognitif, sebab “ almost physical activity 
involves cognitive processes ”. 


PENGGOLONGAN RANAH PSIKOMOTOR 

Menurut Dave (Tim Pascasarjana UNY, 2003a: 2), aspek psikomotor 
mencakup imitasi, manipulasi, presisi, artikulasi, dan naturalisasi. 

Imitasi adalah kemampuan melakukan kegiatan-kegiatan sederhana 
dan sama persis dengan yang dilihat atau diperhatikan sebelumnya. 
Manipulasi adalah kemampuan melakukan kegiatan sederhana berdasarkan 
pedoman yang disediakan dan belum pernah dilihatnya. Presisi adalah 
kemampuan melakukan kegiatan secara akurat sehingga mampu 
menghasilkan produk yang mempunyai tingkat presisi tinggi. Artikulasi 
adalah kemampuan melakukan kegiatan yang kompleks dengan presisi 
tinggi, sehingga* menghasilkan produk keija yang utuh. Naturalisasi adalah 
kemampuan melakukan kegiatan secara refleks. 

Di sisi lain, Simpson (Permendikbud Nomor 104 Tahun 2014) 
mengatakan bahwa ada 7 tingkatan ranah psikomotor, yaitu: (1) persepsi 
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(perception), (2) kes.apan (set). (3) meniru (guided response), (4) pemb.a- 
•aln serakan (mechanism), (5) mahir ico,nplex or oven response), 
(6) adaptasi iadaption). dan (7) menjadi tindakan onsinal (ongmation). 

Pada tingkatan persepsi, seseorang baru mempunyai perhatian untuk 
melakukan suatu gerakan. Pada tahap kes.apan, 

kesiapan mental dan fisik untuk melakukan suatu S eraka "J^*‘'" g p ada 
meniru, seseorang sudah dapat meniru 

tingkatan pembiasaan gerakan, seseorang mel^uUn i laksanakan 
mekanistik Pada tinskatan mahir, seseorang sudah dapat melaksanak 
keoiatan kompleks d~an termodifikasi. Pada tingkatan adaptasi, seseorang 
sudah dapat melaksanakan gerakan alami yang dic.ptakan senchn atas dasa. 
serakan yang diciptakan sebelumnya. Pada tingkatan '^akh.r seseo n 
; ik lah dapat menciptakan sesuatu yang baru yang onsmal dan sukar 

oleh orang lain. 

Dalam bidang pembelajaran, terdapat dua kelompok mata pelajaran 
V i n o mengandung aspek psikomotor. Kelompok pertama adalah kelompok 
man nelafaran yang memerlukan penggunaan alat-alat praktikum misalnya 
“S S5S S. kimia, biologi) „au al„-,la, bengkel (m*-»)» 
oelaiaran teknik mesin dan teknik elektro). Kelompok kedua adalah kelom¬ 
pok mata pelajaran yang menitikberatkan kepada gerak otot secara tera ur, 
mtaCTata^lajLnolah raga dan mata pelajaran keterampilan, seperu 
keterampilan menjahit, memasak, dan sebaga.nya. Kelompo 
dengan adanya praktikum, sedangkan kelompok kedua terkait dengan 

adanya praktek lapangan. 


INSTRUMEN RANAH PSIKOMOTOR 

Menurut Luneta, dkk (Djemari Mardapi, dkk, 2002: 35), 
untuk mengukur aspek psikomotor yang berkaitan dengan pengguna». alat 
dapat berupa: (1) tes paper andpencil, (2) tes identifikasi, (3) tes simulasi, 
dan (4) tes unjuk kerja (performance test). 

Perhatikanlah bahwa instrumen ranah psikomotor termasuk ke dalam 
kelompok tes, bukan non tes, sebab pada pengukuran ranah psikomotor, 
terdapat langkah-langkah atau cara-cara yang benar dan ada langkah-la^ka 
atau cara-cara yang kurang benar. Kadang-kadang tes d. ranah psikomoto 
disebut sebagai tes perbuatan. 


l es Paper and Pencil 

Pada tes paper and pencil, walaupun bentuk nktivitasnya seperti tes 
tertulis, namun sasarannya adalah kemampuan siswa dalam menamp.lka 
karya, misalnya berupa desain alat, desain grafis, dan semacamnya. 


Bab~VlII. PerulcUa^rv K<xnaK PyUeomotor 
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Contoh 8.1 

Berikut ini adalah contoh paper and pencil test yang meminta untuk 

membuat desain rumah sederhana. 

Gambarlah desain rumah sederhana dengan persaratan sebagai oenkut. Ukuran 
bangunan 15 m x 8 m, terdiri dan 1 kamar tamu. 2 kamar tidur utama, 1 kamar ti¬ 
dur pembantu, 1 dapur, 1 ruang keluarga. 1 carport yang dapat memuat 2 mobil. 


Tes Identifikasi 

Tes identifikasi ditujukan untuk mengukur kemampuan siswa dalam 
mengidentifikasi sesuatu hal. misalnya menemukan bagian yang tidak 
berfungsi pada suatu alat. 

Tes Simulasi 

Tes simulasi dipakai untuk memperagakan penampilan siswa dalam 
suatu simulasi, sehingga dengan simuiasi dapat dinilai apakah seorang siswa 
telah menguasai keterampilan tertentu, misalnya keterampilan menyetir 
mobil. 

TES UNJUK KERJA {PERFORMANCE TEST) 

Tes unjuk kerja dilakukan dengan menggunakan alat yang sesung* 
guhnya untuk mengetahui apakah siswa sudah terampil menggunakan alat 
tersebut atau belum. Termasuk dalam hal ini, misalnya, menyuruh siswa 
SMK untuk mengelas, memasak, dan semacamnya. Tes semacam ini sering 
disebut performance test. 

AERA, APA, dan NCME (1999) mendefinisikan tes unjuk kerja 1 
”require students to complete a process or produce a product in a context 
that closely resembles real-life situation Berarti tes unjuk kerja meminta 
peserta tes untuk mengeijakan suatu proses atau menciptakan produk yang 
mana proses dan produk tersebut haruslah seperti yang terjadi atau men¬ 
dekati dengan situasi kehidupan nyata. 

Reynolds, Livingstone, dan Willson (2010:255) memberikan petunjuk 
kapan seseorang memilih tes unjuk kerja sebagai berikut. 

1. Select performance assessment tasks that pnnide the most direct 
assessment of the educathmal objektive you want to measure. 

2. Select performance assessment tasks that ma.\imize you r ability to 
generalize the results of the assessment ; 


Ada yang menyebut tes unjuk kerja (performance test ) sebagai t e* otentik (authentic 
assessment) atau tes alternatif (ahemaiive tesi) " 
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Seleci performance assessment tasks that reflect essenhal skills 
Select performance assessment tasks that encompass more than 
one learnine objective. 

Select performance assessment tasks that focus yoitr e\a uatton <m 
the processes and/or products yon are mosi intereste m 
Select performance assessment tasks that provtde degree o} 

sflecfperformance assessment tasks that measure skills that are 

slTectp^onnance assessment tasks that are fairto all ' 

Seleci performance assessment tasks can he assessec goer 
time and resources available. . • n 

10. Seleci performance assessment tasks thcit can n s(( < 

„%mL',ha< ca„no, I* . .. »»”* 

measure s. 


3. 

4. 

5 . 

6 . 

7. 

8 . 
9. 


PROSEDUR PENGUKURAN RANAH PSIKOMOTOR 

Untuk melakukan pengukuran hasil belajar pada aspek psikomotor 
ada dua hal yang perlu diperhatikan, yaitu: (1) pembuatan soal atau penmah 
untuk melakukan Sesuatu, dan (2) pembuatan mstmmen untuk^mengarn 

jawaban atau respons siswa. Soal atau perintah untuk hasil belajar asp 
psikomotor dapat berupa soal, lembar kerja, lembar tugas, penntah ker| , 
atau lembar eksperimen. Di sisi lain, instrumen untuk mengamati jawaban 
atau respons siswa dapat berupa lembar observasi atau lembar penilaian. 
Lembar Observasi atau lembar penilaian tersebut dapat berupa daftar cek 
fcfecflta) yang biasanya menipakan nucerical ra.ing 'cak alaa de'cnp,,', 

rating scale. 

Daftar cek berisi seperangkat butir soal yang mencerminkan rangkaian 
tindakan atau perbuatan vana harus ditampilkan oleh peserta ujian dan terdiri 

Hnr! indikatoohidikator atau keterampilan-keterampilan dan aspek yang 

akan diukur. Dengan melakukan pengamatan terhadap subjekl^Tempat 

z r s ^r,r ZKSttp- r 

bdk,’bafk, cukup, kurang), atau skala 3 (misalnya baik, cukup, kurang). 
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Contoh 8.2 

Berikut ini dicontohkan daftar cek untuk melakukan pengukuran mengenai 
kemampuan praktik olah raga bola volley (diambil dan Permendikbud No- 


mor 104 Tahun 2014) 



2 = cukup 
I = kurang 

Pada Contoh 8.2, daftar ceknya dipakai untuk keseluruhan peserta tes 
Kadang-kadang dibuat individual per masing-masing peserta tes. 


Contoh 8.3 

Berikut ini adalah contoh daftar cek untuk mengukur keterampilan bermain 
bola volley dalam rating skala lima yang bersifat indivitual. 


Nama Siswa: 


No 

Indikator 

Jawaban 

T 

'2 

3 

4 

5 

] 

Cara melakukan Service 





_ 

2 

Cara melakukan passing atas _ 



_ _ 

_ 

_ 

3 

Cara melakukan passing bawah n 


_i 

H 

' 

_ 

4 

Cara melakukan smash 



_ 

_ _ 

_ __ 

5 

Cara melakukan pembendungan (blocking) 

— 

-' 

-j 

— 

— 


Keterangan: 5 = sangat tepat 

4 = tepat 


3 = agak lepat 
2 = tidak tepat 
i = sangat tidak tepat 
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Pada Contoh 8.2 dan Contoh 8.3. penilai atau pengamat diminta 
membubuhkan tanda cek (\) pada tempat yang disediakan. 

Salah satu kesulitan penilaian ranah psikomotor adalah pengamat 
harus mengamati peserta tes satu-per-saru, tidak bersamaan. n^an 
demikian, jika terdapat 40 siswa dan misalnya hanya tersedia satu pengamak 
maka pengamat tersebut harus mengamati satu-per-satu siswa sebanyak 
kali. Jika setiap peserta tes memerlukan waktu 10 menit, maka untu 
menguji 40 peserta tes diperlukan waktu hampir 7 jam. (Bandingkan dengan 
pengujian ranah kognitif yang dapat dilaksanakan secara serentak, sehingga 
dalam waktu 2 jam dapat dinilai ribuan peserta tes). 

I emh tr penilaian untuk penilaian ranah psikomotor dapat berisi 
sekumpulan indikator atau keterampilan aspek yang diukur dan tempat untuk, 
memberikan skor terhadap indikator atau keterampilan yang diukur tanpa 
skala tertentu 


Contoh 8.4 

Berikut adalah lembar penilaian untuk masing-masing siswa mengenai cara 
siswa bermain bola volley dengan cara memberi skor pada tempat yang 
disediakan. (Bandingkan dengan Contoh 8.3) 


Nama Siswa 


No 

Indikator _- 

Skor* 

1 

Cara melakukan Service - _ 


2 

Cara melakukan passing atas _ 


3 

Cara melakukan passing bawah 


4 

Cara melakukan smash - 


5 

Cara melakukan pembendungan (blocking) 

. - * T— . 71 " * ___: S t !*» n o : 

in kualifikasi 


I J C.dld llivmivurwmi -- O -' . ... .....— 

Keterangan: Skor diisi dengan bilangan 1 sampai dengan 5 dengan kualifikasi 


sebagai berikut. 5 — sangat tepat 

4 = tepat 
3 = agak tepat 
2 = tidak tepat 
1 = sangat tidak tepat 


Pada contoh terakhir, penilai diminta untuk memberikan skor terha¬ 
dap keterampilan peserta ujian yang diamati. Pada umumnya, orang; lebih 
menyukai daftar cek seperti pada Contoh 8.2 daripada daltar isian seperti 

pada Contoh 8.3. 
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PENGEMBANGAN INSTRUMEN RANAH PSIKOMOTOR 

Pada dasarnya proses pengembangan instrumen untuk ranah psiko¬ 
motor sama seperti pada pengembangan instrumen ranah kognitif, seperti 
yang dibicarakan pada Bab IV. 


PENSKORAN INSTRUMEN RANAH PSIKOMOTOR 

Pada umumnya nilai untuk ranah psikomotor diwujudkan secara 
kuantitatif seperti pada nilai ranah kognitif. 

Hal pertama yang harus diperhatikan adalah apakah ada pembobotan 
pada keterampilan yang dinilai. Misalnya apakah kelima keteiampilan 
bermain bola volley di atas mempunyai bobot yang sama. Jika mempunyai 
bobot vans sama, maka penilai tinggal menjumlah skor dari masing-masing 
butir indikator. Jika tidak mempunyai bobot yang sama, maka diperlukan 
perhitungan yang lebih rumit dengan melakukan penghitungan tataan 
terbobot. 

PENAFSIRAN HASIL PENGUKURAN RANAH PSIKOMOTOR 

Setelah diperoleh skor untuk masing-masing indikator atau keteram¬ 
pilan yang diujikan, nilai untuk setiap peserta uji dapat diperoleh dengan 
menjumlah skor untuk seluruh indikator dibagi dengan skor maksimal yang 
mungkin dicapai. 


Contoh 8.5 

Misalnya skor Amir untuk bermain bola volley adalah sebagai berikut. 


No 

Indikator 

Jawaban 

1 

2 

3 

4 

5 

1 

Cara melakukan Service 


~7~ 




2 

Cara melakukan passing atas 



~7~ 



3 

Cara melakukan passing bawah 

* 





4 

Cara melakukan smash 




V 


5 

Cara melakukan pembendungan (blocking) 

__ 

_ 

jT 


_ 


Berdasarkan lembar tersebut dapat dilihat bahwa skor Amir adalah 2 + 3 + 4 
+ 4 + 3 = 16. Pada hal skor maksimal yang mungkin dicapai adalah 25. 

Dengan demikian, nilai Amir pada permainan bola volley adalah = 64. 

Jika batas tuntas untuk permainan bola volley adalah 75, maka Amir belum 
tuntas, dan harus melakukan remedi untuk bermain bola volley. 
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BAHAN DISKUSI 

1. Bandingkanlah cara penilaian pada aspek kognitif, pada aspek 
afektif, dan pada aspek psikomotor. Manakah yang menurut Anda 
paling praktis? Mengapa? 

2. Tulislah keunggulan dan kelemahan tes unjuk kerja (performance 
test) 

3. Misalnya Anda diminta untuk menilai cara siswa menggunakan 
mesin jahit dalam menjahit (misalnya pada SMK Tata Busana). 
Buatlah daftar cek untuk keperluan tersebut. 

4. Misalnva Anda diminta untuk menilai cara stan pada lari cepat 
100 meter (pada mata pelajaran Olah Raga). Buatlah daftar cek 
untuk keperluan tersebut. 

5 Salah satu kelemahan penilaian unjuk kerja adalah diperlukan 
waktu yang cukup banyak. Bagaimana cara untuk mengatasi 
kelemahan tersebut? 


**** 



BAB IX 

PENILAIAN BERBASIS KELAS, PENILAIAN 
UNTUK PEMBELAJARAN, DAN 
PENILAIAN OTENTIK 


PENDAHULUAN 

Seperti disebutkan pada Bab I, Johnson & Johnson (2002) meng¬ 
golongkan penilaian ke dalam tiga jenis, yaitu: penilaian diagnostik, 
penilaian formatif, dan penilaian sumatif. Dengan penilaian diagnostik, para 
pendidik diharapkan dapat mengetahui kesalahan dan/atau miskonsepsi yang 
terjadi pada peserta didik. Penilaian formatif adalah penilaian vang bertujuan 
untuk memberikan balikan kepada peserta didik terkait der.gan kemajuan 
yang telah ia capai dan untuk memberikan balikan kepada pendidik terkait 
dengan perkembangan proses pembelajaran yang dirancangnya. Penilaian 
sumatif dilakukan dengan tujuan untuk menentukan kedudukan peserta didik 
terkait dengan hasil pembelajaran yang telah diperolehnya. Penilaian sumatif 
biasanya berbentuk ujian semester atau ujian akhir satuan pendidikan. 
Penilaian yang didefinisikan oleh Popham (1995: 5), seperti yang ditulis di 
Bab I, lebih mengarah ke definisi penilaian sumatif daripada definisi jenis 
penilaian yang lain. 

Penggolongan lain penilaian adalah membagi penilaian ke dalam dua 
tipe, yaitu penilaian internal dan penilaian eksternal. Penilaian internal 
adalah penilaian yang dilakukan oleh pendidik kepada peserta didiknya 
sendiri, sedangkan penilaian eksternal adalah penilaian yang dilakukan oleh 
lembaga di luav lembaga pendidik berdasarkan kepada pedoman yang telah 
disepakati. Ujian nasional adalah salah satu contoh penilaian eksternal yang 
dilakukan oleh Pemerintah. Di beberapa negara ada kebiasaan melakukan 
benchmarking, suatu penilaian eksternal yang mempunyai tujuan untuk 
melakukan penilaian terhadap suatu hal. 
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Pada pelaksanaan sehari-hari di lapangan, penilaian kadang dianikan 

berbeda tergantung kepada konteks dan siapa yang m Zen) 
vang dikatakan oleh Garfteld (1994), kebanyakan pendidik (guru dan dosen) 

rnerfgartikan penilaian 

exams and assignmg course grade to itudents . * IPf keeiatan 

dalam arti sempit yaitu sekedar pemberian tes dan pembemn nUa , keg*a an 
penilaian hanyalah kegiatan melakukan skonng pada kms dan ujmn unt 
memberikan nilai kepada siswa (mahasiswa). Lebih lanjut GarfieW g 
takan bahwa kebanyakan pendidik (guru dan dosen) u e asse men, as a 
W ay to inforrn students about how wdl they are dotng or hawweh 
the course s ne teach ”. Mereka menggunakan penilaiansebagai siam cara 
untuk memberitahukan kepada siswa seberapa ai >an c <- 
jukan dan/atau memberitahukan kepada siswa seberapa * 

guasai mata pelajaran atau mata kuliah yang telahd,ajarkan olehgurua 
dosennya Kalau ini yang terjadi, maka in. berart, bahwa penilaian hanya 
dipandang sebagai penilaian sumatif. 

Memandang penilaian hanya sebagai penilaian sumatif memberiKaii 
dampak yang tidak menguntungkan. Dampak-dampak tersebut antara lain. 

m memisahkan kegiatan penilaian dengan kegiatan pembelajaran, yang ha 
in^'tampak lelas ketika para pendidik membuat RPP (rencana pelaksa¬ 
naan pembelajaran), di mana pendidik menempatkan ^egmten I^nilaian 
setelah kegiatan pembelajaran selesai ( assessments ta e p f - 
structions ), 

(2) tujuan utama penilaian hanya untuk membuat rangkjng, untu mem 
bedakan siswa yang pandai dan siswa yang tidak: p • 

Vvdnkan siswa yang lulus dan siswa yang tidak lulus, untuk mem 
bedakan siswa mana yang berhak mendapat beasiswa dan yang tidak, 

dan tindakan-tindakan diskriminatif lainnya, 

nenilaian sering dipakai untuk menghukum peserta didik, misalnya 
dengan memberikan nilai jelek pada mata pelajaran yang diampu o e 
pendidik. 

(4) penilaian tidak membantu peserta didik yang mempunyai esiMtan 
belajar, sehingga tidak dapat menciptakan equity di dalam pendidikan. 
Sejak tahun duaribuan, di kalangan praktisi pendidikan teijadi kegun¬ 
dahan akibat adanya penyempitan pengertian mengenai f Pe™Lm ^ • 

Memandang penilaian hanya sebagai penilaian sumatif bdaklah «neng 
tungkan kepada peningkatagjai^ita g,pembelajaran . Diperlukan p ‘ S 
baru terhadap penilaiarTagar penilaian merupakan kegiatan yang y 
d^gan kegiatan pembenaran yang pada ujungnya dapat menmgkutkan 
S* pembelajaran Dari sini muncullah berbagai "T.Sl JZ 
membedakan dengan penilaian yang sekarang ini bany p 
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Nama-nama baru penilaian itu, yang lebih menekankan kepada penilaian 
formatif, misalnya penilaian berbasis kelas (classroom assesment) dan 
penilaian untuk pembelajaran (assessment for leaming). Di sisi lain, pan¬ 
dangan yang menitikberatkan penilaian hanya sebagai penilaian sumatit dan 
yang hanya berupa paper and pencil test sering disebut orang sebagai 
penilaian tradisional ( traditional assesment). 

Pada praktiknya, memang penilaian tradisional tersebut masih tetap 
diperlukan, tetapi pelaksanaannya harus dibarengi dengan penilaian alter¬ 
natif yang dapat meningkatkan kualitas pembelajaran, yang lebih bersifat 
formatif, yang dapat membantu siswa yang berkesulitan belajar untuk mem¬ 
perbaiki kesalahannya. 

PENILAIAN BERBASIS KELAS (CLASSROOM ASSESMENT) 

Ada berbagai definisi penilaian berbasis kelas, yang antara satu defin¬ 
isi dengan definisi lainnya kadang saling bertolak belakang. 

Badan Standar Nasional Pendidikan (BSNP) (Nuning Hidayah Sunani, 
2010: 65) menyatakan bahwa penilaian berbasis kelas merupakan “suatu 
kegiatan yang dilakukan oleh guru berupa pengumpulan informasi selama 
pembelajaran berlangsung melalui prosedur, alat penilaian, dan berbagai 
teknik yang sesuai dengan kompetensi yang akan dinilai”. Jika definisi ini 
yang dipakai, maka semua kegiatan penilaian yang dilakukan oleh guru di 
kelas disebut penilaian berbasis kelas. Dengan demikian, maka berbagai ben¬ 
tuk penilaian (penilaian yang manapun juga) merupakan penilaian berbasis 
kelas, jika dilakukan oleh guru di dalam kelas. Menurut definisi ini, 
penilaian disebut penilaian yang tidak Derbasis kelas apabila tidak dilakukan 
oleh guru di kelas. Ujian nasional, misalnya, bukanlah penilaian berbasis 
kelas, tetapi ujian pilihan ganda yang dilakukan oleh guru di kelas 
merupakan penilaian berbasis kelas. 

Di sisi lain, Angelo (Nuning Hidayah Sunani, 2010: 64) menyatakan 
bahwa “classroom assessmenucomistof small seal e assessment conducted 
continuously in college classrooms to determine what students are leaming 
in that class 

Lebih lanjut-, senada dengan Angelo, dikatakan bahwa: 

Classroom assessment i s bot h a teaching approach and a set of technigues. 
The approach is that the more yon know about what and how students are 
leaming, the better yon can plan leaming aetivities to structure teaching. The 
technigues are mostly simple. non-graded, anonymous. in-class aetivities that 
give both you and yon r students useful feedback on the teaching-leaming 
process (http://ntlf.com/ html/bb/bib/ assess.htm . diambil 2 Mei 2010). 
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Definsi Angelo ini menunjukkan bahwa penilaian berbasis kelas ada¬ 
lah penilaian formatif. Yang terpenting dan penilaian berbasis kelas adalah 
adanya umpan balik kepada peserta didik. Umpan balik tersebut juga dapat 
pula men«ena kepada 2 uru manakala guru menggunakan hasil penilaian ber¬ 
basis kelas unuk memperbaik, proses pembelajarannya Mengacu kepada 
definisi Angelo, maka wujud dan penilaian berbasis kelas adalah simp , 
mungkin berupa ujian singkat di kelas yang bisa diselesaikan dengan cepat 
kemudian hasil ujian para peserta didik diperiksa dan diber. umpan balik 
sekiranya hasil ujian para peserta didik belum memenuhi kriteria yang di- 

harapkan. 

Penjelasan mengenai penilaian berbasis kelas seperti yang dide¬ 
finisikan oleh Angelo di atas menekankan pentingnya jeedback dalam pem¬ 
belajaran sehari-hari dalam rangka memperbaiki kesalahan-kesalahan ya 
diperbuat oleh siswa. Wujud dari penilaian berbasis kelas adalah *plc dan 
non-grade serta berlangsung secara teru- menerus dalam suatu proses pem¬ 
belajaran. Penilaian berbasis kelas dapat lisan (aral) maupun tertulis (unt- 

ten). . 

Bagi guru, adanya penilaian berbasis kelas seperti yang didefinisikan 
oleh Angelo memberi keuntungan, antara lain: (1) memberikan umpan balik 
mengenai proses pembelajaran dan dengan segera dapat memperbaikmy 
manakala ada hambatan yang muncul, (2) member, informasi berharga 
mengenai cara belajar peserta didiknya, (3) mendorong pemataman bahwa 
mengajar adalah proses formatif yang melibatkan umpan balik (fted back) 

secara terus menerus. 

PENILAIAN UNTUK PEMBELAJARAN (ASSESSMENT FOR 
LEARNING) 

Berdasarkan riset kecil-kecilan yang telah dilakukan oleh penulis, 
melalui berbagai wawancara dengan para guru, diperoleh temuan bahwa 
para guru telah merasa memberikan penilaian kepada siswanya dengan bai , 
baik penilaian formatif (yang disebut dengan ulangan harian) maupun 
penilaian sumalif (yang disebut ulangan akhir semester). 

Terkait dengan penilaian formatif (yang oleh beberapa guru disebut 
ulangan harian), dapat disampaikan temuan berikut. 

a. Setiap guru telah melaksanakan ulangan harian setiap satu kompetensi 
dasar (KD) dilaksanakan; 

b. Setiap guru telah memeriksa ulangan harian tersebut, memberikan skor 
pada lembar pekerjaan siswa, dan membagikan kembali kepat a siswa. 

c Skor yang diberikan kepada siswa lebih berfungsi sebagai bagian dari 
' pemberian nilai kepada siswa, karena ikut dihitung untuk menentukan 
nilai akhir rapor, bukan berfungsi sebagai bahkan; 
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d. Rentang waktu antara pelaksanaan ulangan harian dengan pengem¬ 
balian hasil pemeriksaan lembar pekerjaan bervariasi, paling cepat 
seminggu: 

e. Hampir sebagian be^ar guru tidak memberikan balikan kepada siswa di 
dalam lembar pekerjaan siswa, misalnya memberitahukan bahwa siswa 
yang bersangkutan melakukan kesalahan dan bagaimana memperbaiki 
kesalahan tersebut; 

f. Hampir sebagian besar guru tidak memberikan pujian kepada siswa, 
apabila ada siswa yang mengerjakan dengan baik; 

g. Bagi siswa yang mendapatkan skor jelek pada KD tersebut, maka dibe¬ 
rikan' ulangan harian kembali, yang oleh para guru kegiatan membe¬ 
rikan ulangan kembali tersebut memberikan remediasi. 

Berdasarkan temuan penelitian tersebut, menurut hemat penulis, dapat 
disimpulkan bahwa para guru belum melaksanakan penilaian formatif 
dengan benar, karena fungsi penilaian formatif sebagai wahana untuk 
memberikan balikan ( feed-back) kepada siswa secepat mungkin belum 
tampak benar pada pelaksanaan penilaian yang dilakukan oleh para guru. 

Kecuali disebutkan di atas, di kalangan praktisi pendidikan di Indo¬ 
nesia, perhatian lebih ditekankan kepada bagaimana mengkonstruksi 
peni laian sumatif (yang juga disebut assessmen t of l earn ins , AoL) yang 
baik, misalnya pada penyusunan soaT^soal ajTarfmasi^^ ujian 

masuk perguruan tinggi. Kepada para guru pun banyak dilatihkan bagaimana 
mengkonstruksi AoL yang baik, misalnya pada penyusunan soal-soal untuk 
ulangan umum bersama. Kuliah-kuliah penilaian pembelajaran di perguruan 
tinggi juga lebih dititikberatkan kepada hal ihwal mengenai penilaian 
sumatif dibandingkan dengan penilaian formatif. 

Di sisi lain, dewasa ini di dunia penilaian, telah lama dikembangkan 
salah satu jenis penilaian yang disebut penilaian untuk pembelajaran 
(assessment for learning, untuk selanjutnya disingkat AfL). AfL ini pada 
dasarnya adalah penilaian formatif. Diberi nama AfL dengan tujuan untuk 
menekankan bahwa penilaian yang dilakukan adalah penilaian untuk 
perbaikan pembelajaran, bukan penilaian untuk melihat seberapa banyak 
pengetahuan yang telah dikuasai oleh siswa. 

Dalam salah satu makalahnya, Young (2005) mengatakan bahwa AfL, 
jika digunakan secara efektif, dapat meningkatkan prestasi siswa. Hal yang 
sama dikemukakan oleh Stiggins & Chappuis (2006) bahwa AfL dapat 
meningkatkan kesuksesan siswa. Di Inggris, AfL sudah diterapkan sejak 
lama dan terbukti telah dapat meningkatkan kemampuan matematika siswa. 

Assessment Refonn Group di Inggris yang disponsori oleh British 
Educational Research Association telah melakukan riset mendalam 
mengenai pelaksanaan AfL di Inggris sejak beberapa lama. Mereka 
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ssrjsa£ %* 

Stiggins Sc Chappuis (2006). 

^^=S3SSE£ 

c?s«e~£ —-«■■* 

tujuan vansz diinginkan. 

Ml dikembangkan berdasar kepada pemikiran bahwa kemampuan 

ran. dan mengerti cara mencapai tujuan pembelajaran tersebut. 

Ada 10 prinsip dalam AfL. yaitu: _ 

(1) AfL merupakan bagian dari perencanaan pembelajaran yang efekttf (AfL 
( } should be pan ofeffective planning ofteaching and leammg ), 

(2) AfL harus menfokuskan kepada bagaimana siswa belajar (AfL shou 

focus on how students leam), _ 

(3) AfL harus merupakan pusat dari praktik pembelajaran di kelas (AfL 
should berecognized as Central to classroom practice), 

(4) AfL merupakan kunci keteramp.lan profesional guru (AfL should 
regarded as a key professional skdlfor teachers), 

151 AfL harus sensitif dan konstruktif, sebab setiap asesman selalu metnpu- 
<5) r^yai ZIS emosional kepada siswa (AfL should be sens.nve and con- 
Zuch e because any assess,nent has an emouonal ,mpact). 

(6) AfL harus memperhatikan pentingnya motivasi siswa (AfL should tap. 
acrount ofthe importance of leamer motivation), 

( 7) AfL harus mengutamakan komitmen atas tujuan ^noie 

by which they are assessed). 

i XI P-,da AfL siswa harus mendapatkan petunjuk konstruktif bagaimana 
,8> “ .teus mempertaili C,„ 
ance about how to improvc). 
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(9) AfL harus dapat mengembangkan kapasitas siswa untuk dapat menilai 
dirinya sendiri (AfL should develops leamers ' capacity for self- 
assessment so that they can become reflective and self managing), dan 

(10) AfL harus mengenal rentang kemampuan siswa (AfL should recognise 
the f uli range of achievement of all leamers). 

Ada empat karakteristik kunci yang harus dipahami oleh guru dalam 
melaksanakan AfL, yaitu: 

(1) digunakannya teknik bertanya yang efektif ( using effective questioning 
technigues ), 

(2) digunakannya strategi pemberian balikan (using feedback strategies) 

(3) adanya pengertian bersama mengenai tujuan pembelajaran tsharing 
learning goals). 

|4) dilakukannya penilaian antar teman dan penilaian diri (peer and self- 
assesment). 

Untuk mewujudkan AfL yang efektif, hal-hal berikut harus dilakukan 
oleh guru: 

(1) menekankan adanya interaksi antara pembelajaran dan penilaian yang 
dapat meningkatkan kualitas pembelajaran ( emphases the interactions 
between learning and manageable assessment strategies that promote 
learning ), 

(2) menyatakan secara jelas tujuan pembelajaran ( clearly expresses for the 
student and teacher the goals of the learning activity ), 

(3) menyatakan pandangan belajar bahwa penilaian dapat membantu siswa 
belajar lebih baik, bukan sekedar memperoleh nilai yang baik (reflects a 
view of learning in which assessment. helps students learn better, rather 
than just achieve a better mark) y 

(4) memberikan arahan kepada siswa dengan memberikan balikan kepada 
mereka (provides waysfor students to t use feedback from assessment ), 

(5) membantu siswa untuk bertanggung jawab mengenai kemajuan bela¬ 
jarnya sendiri ( helps students take responsibility for their own learning ). 

(6) berlaku untuk seluruh siswa (isinclusive of all leamers). 

Di sisi lain, Clarke (2005: 1-2) mengatakan bahwa pelaksanaan AfL 
(yang oleh Clarke disebut penilaian formatif) harus mengikuti strategi beri¬ 
kut: 

(1) menyatakan dengan jelas tujuan pembelajaran dan kriteria sukses pada 
perencanaan pembelajaran sebagai kerangka dasar untuk AfL (ctarifying 
learning objectives and success criteria at the planning stage, as frame- 
work for fonnative assessment processes). 
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(2) berbagi tujuan pembelajaran dan kriteria sukses dengan siswa (sharing 
learning objecdves and success criteria «M students, both long term 
and for individual lessons), 

,3, menggunakan teknik bertanya yang tepat dan efektif untuk mengem¬ 
bangkan pembelajaran, bukan untuk mengukur kemampuan siswaf , ^ 
propriate and effective questioning whtch develops the leaming rat 
than attempts to measure it), 

(4) memusatkan kepada pemberian balikan, baik secara lisan maupun tertu- 
S Zcusing oral ancZntten feedback, „hether front teacher or student, 
around the^evelopment of leaming objectives and meetmg oftargets), 

(5) menata taraet sedemikian hingga pencapaian kemampuan siswa ber- 
' dasarkan k^ada kemampuan sebelumnya (organ, s,ng targets so that 

students ’ J/mw»/ « based on previotts achievement as well as a,m- 

im> for the next step). 

(6) melibatkan penilaian diri dan penilaian antar-.eman (involving students 
in self- and peer evalitation), dan 

(7) memberikan pemahaman bahwa setiap siswa dapat belajar dan berkem- 
Lg dengan baik irakirg sluden a' setf-efficacy <md holdmg « belref 
that all students have potential to learn and achteve). 

Seperti diuraikan, inti dari AfL adalah pemberian b^ n kepada 
siswa secepat mungkin terhadap kesalahan-kesalahan ya g ^ 

Swa. Wujudnya da 8 pa, beuu^i-maeam. Teruruk peer essessmen, ya„u 

penilaian antarteman. 


PENERAPAN ASSESSMENT FOR LEARNING (AfL) DI KELAS 

Berikut ini adalah suatu contoh model AfL yang dike^gkan f^m 

lis bersama tim bekerjasama dengan Musyawarah Guru Mata ^Petejjan 
(MGMP) Kota Surakarta. Tentu saja, di sana-smi model yang teteh dik 
bangkan tersebut dapat disempurnakan dan/atau d.mod.fikas,untuk meme 

nuhi asas kepraktisan (kemudahan penggunaan, niph DIPA DIK- 

bangkan melalui Research and Development yang dibiayai oleh DIPA DIK 
T1 melalui DIPA UNS pada skema penelitian potensi pendet a " g 
nomor kontrak 0162.0/023-04.2/X111/2008, tanggal 31 Desember 2008. 

Berdasarkan pencertian dan prinsip-prinsip AfL yang disampaikan di 

strategi dan implementasi seperti pada Tabel 9.1. 
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Tabel 2i L Implementasi Strategi AfL dari CIarke 


N o 

Strategi AfL dari CIarke 
(2005) 

Implementasi 

! 

Clarifying leaming obiec- 
i tives and success criteria 
at the planning stage , as 
framework for formative 
assessment processes 

• Memformulasikan tujuan pembelajaran 

1 dan kriteria sukses sebelum pembelajaran 
berlangsung. Tujuan pembelajaran dan 
kriteria sukses mengacu kepada RPP 

2 

Sharing leaming objec- 
tives and success criteria 
with students, bot h long 
term and for individual 
/essons 

Memberitahukan tujuan pembelajaran dan 
kriteria sukses kepada siswa di setiap awal 
pembelajaran dan menulisnya di papan 
tulis, sehingga selama pembelajaran ber- 
; langsung guru dan siswa dapat memfokus- 
* kan kepada tujuan pembelajaran dan krite- 
! ria sukses tersebut 

3 

1 

Appropriate and effective 
guestioning which devel- 
ops the leaming rather 
than attempts to measure 
it 

I Menggunakan tujuan pembelajaran dan 
j kriteria sukses sebagai dasar untuk mem- 
! berikan pertanyaan ( questioning ) dan 
balikkan (feed-back ) selama pembelajaran 
berlangsung 

4 

Focusing oral and written 
feedback, whetherfrom 
teacher or student, 
around the development 
of leaming objectives and 
meeting of targets 

Memeriksa hasil pekerjaan siswa sesegera 
mungkin. 

Memberikan balikan konstruktif dan 
memotivasi kepada siswa pada lembar 
pekerjaan siswa 

5 

Organising targets so that 
students ' achievement is 
based on previous 
achievement as well as 
aiming for the next step 

Menetapkan tujuan pembelajaran dan krite¬ 
ria sukses berdasarkan pencapaian kemam¬ 
puan siswa sebelumnya 

6 

| 

Involving students in self- 
and peer evaluation 

Memberi kesempatan kepada siswa untuk 
mendiskusikan dengan teman-temannya 
jawaban alas soal-soal yang diberikan, 
mengemukakan perasaannya mengenai 
pembelajaran yang sedang berlangsung dan 
mengemukakan kesulitan-kesulitan yang 
ditemui selama pembelajaran 

7 

Raising students ' self- 
( fficacy and holding a 
belief that all students 
have potential t o learn 
and achieve 

Selama pembelajaran berlangsung, guru 
memberikan semangat dan membangun 
kepercayaan diri siswa bahwa setiap siswa 
dapat belajar matematika dengan baik. 
Memberikan soal-soal mulai dari soal yang 
mudah, sehingga setiap siswa merasa dapat 
mengerjakan soal dengan benar. 

Memberikan balikan yang konstruktif. 
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Berdasarkan strategi dan implementasi pnnsip-pnnsip AtL di atas, 
maka perencanaan dan pengorganisasian pembelajaran > - cr 

dalam model AfL disusun sebagai berikut. 


a. Perencanaan Pembelajaran 

Untuk dapat mewujudkan AfL yang menyatu dengan proses pembe 
lajaran, guru mempersiapkan hal-hal berikut. 

1. Tujuan pembelajaran. Tujuan pembelajaran disusun dalam kalimat 
dapat dipahami oleh siswa. Supaya siswa selalu mengm J 
pembelajaran yang harus dicapai, tujuan pembelajaran ditulis d. papan 
tulis dan tidak dihapus selama pembelajaran berlangsung. 

2 Kriteria sukses. Guru menetapkan kriteria sukses sebagai kriteria bahwa 
siswa lelah berhasil mencapai lujuan yang dirumuskan, nnsalnya mw a 
dikatakan sukses apabila dap., mengerjakan 

Seoerti halnva tujuan pembelajaran» soal-soal yang diharapka .p 
dfsdesaikan oleh siswa^ditulis i, papan ml,s dan nd.k dihapus — 
pembelajaran berlangsung. 

3. Soal-soal latihan. Guru menyiapkan t,ga jenis soal sebaga, latihan, 
merupakan soal uraian (essay), yang disebut soal trfmp I- ^aUahap , 
dan soal tahap III, masing-masing minimal sebuah soal. Jika d > ra « a . 
flap I dan mhap H sudah cukup. Lahap UI ^nkum 

Pemberian soal tahap I dan tahap II ini diadopsi dan model AtL yang 
dikembangkan oleh Mansyur (2009) yang juga merupakan m<xhfikasi 
dariTwoinge tasks dari de Lange (1999). Perbedaan tiga jenis soal «er- 
sebut tampak pada Tabel 9.2. 



Tabel 9.2 . 

D erbedaan Soal 7 

'a ha d /, Tahap II, dan 
Soal Tahap 11 

Tahap III 

Soal Tahap III 

No 

1 

Aspek 

Tingkat 

kesulitan 

5 oai i anap i 

Mudah 

mudah atau sedang 

sedang atau 
sukar _ 

2 

Lama 

pengerja 

an 

10-15 menit 

20 - 30 menit 

1 - 2 jam 

3 

Pengerja 

an 

di kelas 

di rumah 

di rumah 

4 

Waktu 

penye¬ 

rahan 

kepada 

guru 

diserahkan di 
kelas, langsung 
setelah selesai 
mengerjakan 

diserahkan kepada 
guru sehari sebelum 
pembelajaran 
berikutnya 

tidak diserahkan 
kepada guru 




Penittuan/Benbatiy Keiay, Peniiaiarv untuk Pentbeiaianai-^ dan Pen.la.an Otentik 
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Tabel 9.2. Perbedaan Soal Tahap I, Tahap II. dan Tahap III 
__ (lanjutan) __ 


No 

Aspek 

| Soal Tahap I ! Soal Tahap 11 

! Soal Tahap III t 

4 

Waktu 
i penyerahan 
kepada guru 

j diserahkan di 
i kelas, langsung 
setelah selesai 
mengerjakan 

t diserahkan kepada 
guru sehari sebelum 
pembelajaran 
berikutnya 

1 tidak diserahkan 
! kepada guru 

i 

5 

Waktu 

pemeriksaan 

pekerjaan 

siswa 

diperiksa 
langsung oleh 
guru di kelas 
(atau oleh tim) 
dan dikembalikan 
kepada siswa 
pada saat itii juga 

diperiksa oleh guru 
tidak di kelas, 
dikembalikan 
kepada siswa pada 
pembelajaran 
berikutnya 

tidak diperiksa 
oleh guru 

1 

i 

6 

I 

1 

umpan balik 

diberikan umpan 
balik bagi yang 
melakukan 
kesalahan 

diberikan umpan 
balik bagi yang 
melakukan 
kesalahan 

! didiskusikan di 
; kelas sebagai 
i wahana pem- 
! berian umpan 
balik 

1 

7 

pemberian 

skor 

diberi skor, tetapi 
skor tidak 
diberitahukan 
kepada siswa 

diberi skor, tetapi 
skor tidak 
diberitahukan 
kepada siswa 

tidak diberi skor 


8 

fungsi 

pemberian 

skor 

untuk merekam 
kemajuan siswa, 
bukan sebagai 
bagian dari 
pemberian nilai 
kepada siswa 

untuk merekam 
kemajuan siswa, 
bukan sebagai 
bagian dari 
pemberian nilai 
kepada siswa 

1- 


9 

pemberian 
umpan balik 
dan motivasi 

diberi umpan 
balik dan diberi 
pujian untuk 
memberi motivasi 

diberi umpan balik 
dan diberi pujian 
untuk memberi 
motivasi 


10 

jenis pujian 
dan balikan 

pada lembar 
pekerjaan siswa 
ditrUs: 

excellent: jika 
benar dikerjakan 
dengan sempurna 
good: jika hampir 
benar 

perbaiki: jika 
salah (tunjukkan 
bagaimana cara 
memperbaikinya) 

Pada lembar 
pekerjaan siswa 
ditulis: 

excellent: jika benar 

dikerjakan dengan 

sempurna 

good: jika hampir 

benar 

perbaiki: jika salah 
(tunjukkan 
bagaimana cara 
memperbaikinya) 
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Perhatikan bahwa soal tahap III berfungs, sebagai Pekerjaan mmah 
seperti vane biasanya diberikan oleh guru kepada siswanya. Jawaban soaJ 
3"lhap M ini didiskusikan d, kdas. leupi pada model m, i.dak ada 
SwajS b' s , guru un,uk memeriksa dan memberi baiikan secara «riuli. 

kepada ma>in£-masing siswa. 

Karena soal tahap I dan soal tahap II merupakan soal-soal untuk 
nenilaian formatif maka sebenarnya tidak perlu diberi skor. Pemberian skor 
diperlukan jika guru ingin mengetahui perkembangan kemajuan siswanya. 
Pada praktik pembelajaran sehari-hari, disarankan soal tahapl an^soa , ap 
II tidak perlu diberikan skor, tetapi diberi feedback. Seperti dikatakan oe 
Lanse (1999) -feedback can be invnediate and very differentiated mthe 

'ZSSZZU* e». * r/mc-r «M* r»- -* £-•» 
whal j v U rona and v./iv and giving a .suggesiionfor correctio,,) . Jadi,leed 
back harus diberikan segera mungkin dan bersifat individual berisi mforma 
^mengenru Ssubhan e yu„g dilSrukun dan saran bagaimana memperbaik, 
kesalahan tersebut. 

Beberapa orang mengatakan bahwa pemberian skor kepada kertas 
pekerjaan s swa adalah wujud dari sua,u feadback. Pendapa, m, „dak se^ 
Mhnya tamu, sebab menu,u, de Lange (1999) "o score ona m, .s eneoM 
Information, «hereas feedback k information ,ha, promdes Mloejonner 
J,h direcl, usablr Insighk Mo currrn, „erformance aMoboiedonmng,- 
ble differences between current performance and hoped f o p rf 

Skor-skor untuk soal tahap 1 dan soal tahap II tersebut, jika diberikan, 
tidak dipakai sebagai pertimbangan pemberian mlai akhir ( m la ‘ [ . a ^ 
euru menginginkan ada skor-skor lain di samping skor ujian akhir semester 
untuk menentukan nilai rapor siswa, maka guru dapat memberikan u ang 
harian yang sifatnya sebagai penilaian sumatif (atau penilaian 
Penilaian sub-sumatif ini diberikan setelah beberapa kompetensi dasar (KD) 

selesai diajarkan. 


b. Pengorganisiran Pembelajaran 

Untuk melaksanakan pembelajaran dengan AfL ini. 
matematika di kelas diatur sedemikian rupa sehingga satu 
lajaran berlangsung selama 2 jam pelajaran (2x40 menit), 
menit yang diharapkan melaksanakan pembelajaran untuk s. 
dasar (KD) (atau bagian dari satu KD). pengorgamsas.an 
disusun seperti pada Tabel 9.3. 


pembelajaran 
satuan pembe- 
Selama 2x40 
atu kompetensi 
pembelajaran 
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Tabel 9.3. Lama Waktu, Kegiatan Guru, dan Kegiatan Siswa dalam AfL 


No 

Kegiatan Guru 

Kegiatan Siswa 

Lama 

1 

a. Memberikan apersepsi dan 
motivasi. 

b. Menulis rujuan dan kriteria 
sukses di papan tulis. 

c. Menjelaskan tujuan 
pembelajaran dan kriteria 
sukses kepada siswa. 

Memahami dengan baik 
| tujuan pembelajaran dan 
kriteria sukses yang 
disampaikan guru 

5 menit 

i 

2 

Melaksanakan pembelajaran 
sesuai dengan RPP yang dibuat 
guru 

Melaksanakan penga¬ 
laman belajar sesuai 
dengan RPP yang dibuat 
guru 

40 - 45 
menit 

3 

Memberikan soal tahap I 

Mengerjakan soal tahap I 
di kelas 

10- 15 
menit 

4 

Memeriksa jawaban siswa 
untuk soal tahap I dan 
memberikan balikan pada 
kertas jawaban siswa (oleh guru 
kelas maupun bersama-sama 
dengan guru lain dalam suatu 
team teaching , atau dengan cara 
lain) dan mengembalikan kertas 
jawaban kepada masing-masing 
siswa 

Berdiskusi dengan teman- 
temannya mengenai 
jawaban soal tahap I. 
Beberapa siswa, misalnya 

3 orang siswa, diminta 
menulis jawaban soal 
tahap I di papan tulis 
sebagai hasil diskusi 
dengan siswanya 

10- 15 
menit 

5 

Memberikan balikan kepada 
siswa secara klasikal terhadap 
pengerjaan soal tahap I, secara 
lisan 

Menanggapi kesulitan-kesulitan 
yang dialami oleh siswa dalam 
mengerjakan soal 

Mendengarkan dan 
mencatat balikan yang 
diberikan oleh guru. 
Mengemukakan kesulitan 
yang dialami oleh siswa 
dalam mengerjakan soal 

5-10 

menit 

,6 

Memberikan soal tahap II dan 
tahap 111 

Mencatat soal tahap II 
dan tahap III (jika belum 
disediakan oleh guru) , 

5 menit 

j 


Catatan: 


1) Pada pembelajaran berikutnya, sebelum memulai pembelajaran, guru 
membagi pekerjaan siswa untuk soal tahap II yang telah diberikan 
umpan balik 

2) Guru perlu memberikan umpan balik terhadap pengerjaan soal tahap 11 
secara lisan di kelas 
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r, Untuk memudahkan siswa melihat balikan guru, soal tahap I d “ n ta **P 
II ditulis pada selembar kertas dan siswa diminta mengerjakan di kertas 

itu juga. 

Perhatikanlah bahwa model pembelajaran dengan AtL ini, penilaian 
formatif (yang diwujudkan dalam soal-soal tahap I. dan II) ben ^"f' 
menyatu dengan proses pembelajaran. Tujuan utama 

lah untuk memberikan balikan kepada siswa, jika siswa melakukan kesa 
lahan, dan memberikan pujian, jika siswa mengerjakan soal dengan benar. 

Setelah dilakukan uji coba pada skala terbatas f e! "™ a ^J e ‘ d 
le s,ing) pada kelas VII. VIII. dan IX di SMP Negeri 14 dan SMP Muham¬ 
madiyah 1 Surakarta, model yang dikembangkan telah‘f 
pada skala luas (main Md testine > pada kelas VII. VIII. dan IX d. enam 
buah SMP di Kota Surakarta. 

SMP-SMP vang terlibat dalam implementasi model adalah: SMP 
Neseri 14. SMP Negeri 18. SMP Negeri 19, SMP Negeri 20. SMP Muham¬ 
madiyah 1 dan SMP Kristen Kalam Kudus Surakarta. Implementasi mod 
dilaksanakan pada bulan Oktober dan Nopember 2009 selama tiga kali 
pembelajaran. 

Nama-nama guru yang terlibat pada langkah ini dapat dilihat pada 
Tabel 9.4. 


Tabel 9.4. Nama SMP dan Guru yang Terlibat dalam Mam tield Testing^ 


No 

Nama SMP 

Kelas VII 

Nama Guru 
Kelas VIII 

Kelas IX 

1 

SMP 

Negeri 14 

Tri Purwandari, 
S.Pd. 

Dra. Tri Unggul 
Suwarsi, M.Pd. 

Yahya Irine, S.Pd. 

2 

SMP 

Negeri 1 8 

Sri Wulandari, 
S.Pd. 

Prih Sasonodadi, 
S.Pd, 

Partini, S.Pd. 

3 

SMP 

Negeri 19 

Tri Isnadi, S.Pd. 

Mahanani Surja- 
tiningsih, S.Pd. 

Endang Sriningsih, 
S.Pd., M.Pd. 

4 

SMP 

Negeri 20 

Diana lndriastuti 
KW. S.Pd.. 

M.Pd. 

Alip Tohar Mus¬ 
takim, S.Si. 

Murwaningsih. 

S.Pd. 

3 

SMP 

Muham¬ 
madiyah 1 

Erwin Kurniati. 
S.Pd. 

Agus Budi 
Hartono, S.Pd., 
M.Pd. 

Menua wan 

Lastiyono, S.T., 

S.Pd* 

6 

SMP Kris¬ 
ten Kalam 

Friesca Pra 

U tam i Dewi. 

Ivid Kristyana 
Savitri, S.T. 

Evi Dayanti, S.Pd. , 


Kudus 

S.Pd. 

-—— 



Keberjalanan model yang 
yaitu dilihat dari: (a) guru yang 


telah dikembangkan dilihat dari 4 aspek, 
menjalankan model tersebut, (b) siswa yang 
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dikenai pembelajaran, (c) pembandingan nilai siswa->i>wa sebelum dikenai 
AfL dengan nilai-nilai mereka setelah dikenai AfL. dan id) pembandingan 
nilai siswa-siswa yang dikenai AfL dengan siswa-siswa yang tidak dikenai 
AfL (dengan asumsi kelas yang dikenai AfL dan kelas yang tidak dikenai 
AfL sebanding kemampuannya;. 

Untuk melihat pembandingan pada (c; dan td; hanya dilakukan secara 
ex post facto , tidak melalui penelitian eksperimental yang terkontrol dengan 
ketat. Para peneliti lain dapat melakukan pembandingan prestasi belajar 
antara kelas yang dikenai AfL dan kelas yang tidak dikenai AfL secara 
eksperimental yang terkontrol secara ketat untuk melihat efektivitas pem¬ 
belajaran yapg mengakomodasi AfL. 

Pada implementasi tersebut, kepada para guru dipersilakan untuk 
mengajar dengan menggunakan Rencana Pelaksanaan Pembelajaran (RPP) 
yang telah mereka buat sebelumnya dengan mengadakan modifikasi dengan 
memasukkan model AfL pada pembelajarannya. Metode yang dipakai pada 
pembelajaran diserahkan sepenuhnya kepada para guru. Pokok bahasan yang 
digunakan pada implementasi juga diserahkan sepenuhnya kepada para guru. 
Dengan demikian, pembelajaran yang mengakomodasi model AfL ini bebas 
metode dan bebas pokok bahasan. 

Pada pelaksanaan model tersebut, hampir semua guru mengatakan 
bahwa model AfL dapat dilaksanakan dengan cukup mudah. Aspek yang 
terasa membebani adalah pemberian pertanyaan yang bersifat untuk 
mendapatkan umpan balik, pemeriksaan pekerjaan siswa, dan pemberian 
balikan kepada siswa secara tertulis pada pekerjaan siswa. 

Hal tersebut di atas menunjukkan bahwa keterampilan memberikan 
pertanyaan efektif untuk melihat hal-hal yang belum diketahui siswa bukan 
pekerjaan yang mudah dan perlu dikembangkan terus menerus. Pemerik¬ 
saan pekerjaan siswa dan pemberian balikan tertulis kepada siswa selama ini 
juga belum merupakan kebiasaan guru dalam mengajar. Pada hal, pemberian 
balikan inilah yang sebenarnya dapat mendorong siswa untuk belajar lebih 
baik, dan oleh karenanya kepada guru perlu ditekankan semangat ini untuk 
meningkatkan kualitas pembelajaran. 

Namun demikian, beban-beban yang terasa memberatkan tersebut 
akan terbayar jika ternyata penguasaan matematika siswa dapat meningkat 
dengan baik. 

Di sisi lain, berdasar angket yang diberikan kepada siswa dan 
wawancara guru dengan siswa diperoleh kesan bahwa hampir seluruh siswa 
merasa mendapat balikan ketika mengejjakan soal tahap I dan soal tahap II. 
Hampir seluruh siswa juga merasa cukup terbantu atau sangat terbantu 
ketika mendapatkan balikan dari guru. Lebih dari 80% siswa merasa 
kesenangannya terhadap matematika bertambah dengan diterapkannya AfL. 
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Tabel 9.5. Rerata Nilai Siswa pada Soal tahap I, Soal tahap U, Sub-sumatif 
Sebelum dan Selelah Pelaksanaan AfL, dan Kelas Lain yang 
Memakai AfL 


f 

—p 

No 

i 

Nama 

Nilai Pengerjaan 
Soal Tahap 1 

Nilai Pengerjaan 
Soal Tahap 11 

Nilai 

Sub- 

suma- 

tif 

sebe¬ 

lum 

AfL 

Nilai 

Sub- 

suma- 

tif 

sete¬ 

lah 

AfL 

Nilai 1 
Subsu- 
matif 
kelas 
pemban 
ban- 
din.2 

SMP 

Pembelajaran ke- 

Pembelajaran 

ke- 


1 

___L 

2 

3 

1 | 

2 

3 

- 

KE! 

1 

.AS VII 

smpnTTT 

88.6 j 

63.1 I 

74,3 

69,1 

85,4 

94,3 

67,3 

84,0 

61.86 

i 

2 

SMPN 18 

ItTT 

~5S76| 

”58,1 

61,8 

73.1 

66.0 

39,5 

51,4 

48,54 ' 

hrl 

SMPN 19" 

59.7 T 

63.9 

79.8 

70.5 

64,9 

92.1 

70,1 

73,4 

65.77 

r 

4 

SMPN 20 

---r 

56.6 

75.0 

73,2 

69,5 

81,7 

74,5 

61,8 

67,6 

56.60 


5 

SMP Mh 1 

80,2 

86,7 

89,2 

85,3 

81,9 

87,5 

61,5 

67,3 

63,38 


6 

SMP KK 

66,2 

76,9 

84,8 

66,2" 

81,5 

86,2 

59,4 

75,9 

72,50 


Rer 

•ata Besar 

68,1 

70,7 

76,6 

70,4 

78,1 

83,4 

59,9 

69,9 

61,44 


KE 

T"| 

LAS VIII 
SMPN 14 n 

84,2 

76,3 

73,9 

75,8 

73,4 

78,4 

66,4 

77,7 

67,37 


2 

SMPN 18 

75,8 

80,7 

94,4 

60,2 

81,9 

82,3~l 

50,6 

59,4 

60,94 

__ 

SMPN 19 

87,8 

83,3^ 

91,9 

85,5 

90,2 

96,3 

67,2 

73,1 

67,13 

4 

SMPN 20 

87,5 

73,3 

77,5 

86,1 

77,6 

91,9 

66,8 

75,9 

63,95 

5 

SMP Mhl 

64,6 

77,6 

89,5 

84,3 

78,8 

89,3 

60,8 

84,2 

61,60 

6 

SMP KK 

82,8 

71,2 

86,2 

81,7 

95,3 

86,0 

74,0 

84,8 

74,25 

Re 

rata Besar 

80,5 

77,1 

85,8 

78,9 

82,9 

87,2 

64,3 

75,9 

64,21 

Kelas IX 





66.7 

49,91 

1 

SMPN 14 

T~S0.9 I 86.3 

87,3 

83,7~ 

93,5 

W/.0 

1 jy.y 

2 

SMPN 18 

65,8 

92,6 

57,3 

73,6 

83,3 

93,2 

41,0 

54,3 

56,41 

3 

SMPN 19 

86.8 

86,4 

97,0 

96,6 

90,1 

81,2 

73,8 

83,6 

71,60 

4 

SMPN 20 

95,8 

90,4 

87,1 

99,0 

86,4 

87,4 

65,2 

85.6 

67.26 

5 

SMP Mhl 

76,7 

87,3 

78,7 

*87,7 

92,0 

84,0 

56,9 

72,4 

69,67 

6 

SMP KK 

70,6" 

87.6 

85,0 

85,0 

96,5 

98,1 

70,4 

87,5 

71,97 

R< 

;rata Besar 

79.4" 

88.4 

82,1 

87,5 

90,3 

90,3 

61,2 

1 75,1 | 64,47__ 
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Pembandingan Nilai Sebelum AfL dan Sesudah AfL 

Tabel 9.5 memuat rerata nilai-nilai siswa pada soal tahap L nilai siswa 
pada soal tahap II, nilai sub-sumatif sebelum dan setelah pelaksanaan AfL, 
dan nilai siswa kelas lain yang tidak memakai AfL di sekolah tertentu. 

Berdasarkan Tabel 9.5 dapat dilihat bahwa ada peningkatan van 
cukup tajam nilai-nilai siswa sebelum dan sesudah pelaksanaan AfL, dan 
59,9 ke 69,9 pada kelas VII, dari 64,3 ke 75,9 pada kelas VIII, dan dari 61,2 
ke 75,1 pada kelas IX. 

Di sisi lain, walaupun tidak secara menyeluruh, terdapat kecende¬ 
rungan bahwa nilai siswa pada pembelajaran ketiga lebih baik daripada nilai 
siswa pada pembelajaran kedua dan nilai siswa pada pembelajaran kedua 
lebih baik daripada nilai siswa pada pembelajaran pertama. 


Pembandingan dengan Kelas Lain yang Tidak Menggunakan AfL 

Berdasarkan Tabel 9.5, kecuali untuk kelas VIII dan kelas IX SMP 
Negeri 18 Surakarta, dapat dilihat bahwa nilai sub-sumatif kelas AfL selalu 
lebih baik daripada nilai sub-sumatif kelas yang tidak menggunakan AfL. 
Hal ini menunjukkan bahwa pembelajaran yang mengakomodasi AfL lebih 
efektif dibandingkan dengan pembelajaran yang tidak mengakomodasi AfL. 

Temuan penelitian pada penelitian tersebut di atas menunjukkan 
bahwa model AfL yang dibangun dapat dilaksanakan dengan baik dan dapat 
meningkatkan kemampuan matematika siswa. Hal ini sejalan dengan temuan 
penelitian pada penelitian Mansyur (2009), Young (2005), dan Stiggins & 
Chappuis (2006). 


PENILAIAN OTENTIK (AUTHENTIC ASSESSMENT) 

Seperti pada penilaian berbasis kelas, ada beberapa definisi mengenai 
penilaian otentik yang dikemukakan para ahli, yang tidak seluruhnya 
koheren. Oleh karena itu, pembaca diminta berhati-hati untuk memaknai apa 
yang disebut penilaian otentik. 

Penilaian otentik adalah jawaban terhadap kritik bahwa penilaian yang 
dilakukan pendidik kebanyakan adalah paper and pencU test yang lebih 
berorientasi kepada pengujian pengetahuan siswa yang bersifat kognitif 
dan/atau teoretis. Untuk memulai diskusi, perhatikan butir soal pada Contoh 
9.1 Contoh 9.2, Contoh 9.3, dan Contoh 9.4 berikut. 


Contoh 9.1 

Tulislah cara-cara orang menanam jagung! 


. (1Q 
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Contoh 9.2 . ■ 

Sediakan alat-alat yang diperlukan untuk menanam jagung. Kemudian, 
tanamlah jagung di lahan yang sudah disediakan. 


Contoh 9.3 

Carilah akar-akar persamaan 

Contoh 9.4 


5 + ~ + 
x 


t= 0! 


m 

Rokok A yang harga belinya Rp. 0.000.00.dijual dengan harga Rpll .00-00 
per bungkus, sedangkan rokok B yang harga belinya RpLrOO W) d.jtuj 
denoan haraa Rpl7.00.00 per bungkus. Seorang pedagang rokok 
mempunyai'modal Rp3.000.000.00 dan kiosnya dapat menampung , a «, 
banvak 250 bungkus rokok. Berapa laba maksimum yang 'P cl ' 1 
aang itu dengan hanya menjual dua jenis rokok tersebut. 

Butir soal pada Contoh 9.1 merupakan butir soal yang menanyakan 
pengetahuan peserta tes dalam menanam jagung. Walaupun seseorang dapat 
meniawab dengan baik butir soal tersebut, namun belum tentu sorang 
tersebut dapat menanam jagung dengan baik. Butir soal seperti ini a yang 
dikritik sebagai butir soal yang tidak otentik. Senng disebut sebagai pe 
laian tradisional (traditional assessment). 

Bandingkan dengan suruhan pada butir soal pada Contoh ^-2. Butir 
soal seperti p 8 ada Contoh 9.2 itulah yang disebut dengan penilaian otenuk. 
Pengertian penilaian otentik seperti itu cocok dengan definisi peniUa 
otentik dari Callison (1988) yang mengatakan bahwa authe ^['\^nnance 
ia an evaluation process that involves multiple forms of P e, J°" na 

.w 

essential knowledge and skills . 

Berdasarkan dua pengertian tersebut maka dapat dikatakan bahwa 

penilaian otentik adalah penilaian di mana par “ S1S ^“ , a „ vang 

mendemonstrasikan aplikasi dari pengetahuan dan keterumpil g 

diperoleh "dalam kelas ke kejadian nyata. Beberapa orang mengatakan 
penilaian otentik adalah performance assessment (penilaian kinuja, sc 
lebih menitikberatkan kepada kinerja daripada pengetahuan stm. ■ ‘ / 

(penilaian aliern.iif. sebab bert*da dengan pcn. a.an 
JSZZ) . aiau <F*nila,a„ langsung, sebab ,e,nl»..n 

otentik menyediakan bukti langsung dari aplikasi pengetahuan). 
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Dengan melihat definisi Callison dan Muelier di atas, maka butir soal 
pada Contoh 9.3 dan Contoh 9.4 bukanlah butir soal untuk penilaian otentik. 
Walaupun untuk menyelesaikan butir soal pada Contoh 9.3 dan Contoh 9.4 
diperlukan pengetahuan tinggkat tinggi (analisis, sintesis, dan evaluasi), 
tetapi butir soal itu tidak terkait dengan tugas nyata di kehidupan sehari-hari 
dan bukanlah berbasis kepada aspek psikomotor kperformance). 

Penilaian otentik biasanya mencakup serangkaian tugas yang harus 
dilakukan oleh siswa. Serangkaian tugas tersebut dinilai melalui rubrik yang 
dengan rubrik tersebut performance (unjuk kerja) dari siswa dapat diukur. 
Menurut Muelier (2005) tugas yang harus dikerjakan tersebut haruslah real- 
world tasks , tugas yang benar-benar banyak dilakukan di dunia nyata, bukan 
tugas rekaan atau tugas yang seolah-olah. 

Penilaian otentik dikembangkan berdadarkan beberapa pemikiran 
berikut: (1) misi dari sekolah adalah untuk meneiptakan warga negara yang 
produktif (productive cilizens ), (2) untuk menjadi warga negara yang 
produktif, seseorang harus dapat melakukan pekerjaan yang bermakna di 
dunia yang real {performing meaningfui tasks in the real world). (3; oleh 
karena itu, sekolah harus dapat membantu siswa untuk dapat menyiapkan 
diri melakukan pekerjaan di dunia nyata setelah mereka lulus, (4) untuk 
menopang kesuksesan siswa, sekolah harus meminta para siswa untuk 
melakukan tugas-tugas bermakna yang merupakan replikasi dari real world 
challenges untuk melihat apakah siswa mampu untuk melakukan hal 
tersebut. 

Langkah-langkah untuk melaksanakan penilaian otentik adalah: 
(1) identifikasikan Standard yang harus dipenuhi, (2) pilihlah pekerjaan yang 
harus dilakukan, (3) identifikasikan kriteria yang harus dipenuhi dalam 
melakukan pekerjaan itu, dan (4) buatlah rubriknya yang sesuai. 

Berdasarkan definisi penilaian otentik dari Mueler tersebut di atas, 
dapat dipahami bahwa penilaian otentik sangat cocok untuk mata-mata 
pelajaran yang bersifat vokasi (keterampilan fisik). Penilaian otentik tidak 
cocok untuk mata pelajaran yang bersifat kognitif, seperti misalnya 
Matematika. Atau paling tidak sangat sulit untuk membuat butir soal 
penilaian otentik di Matematika. Contoh penggunaan penilaian otentik di 
bidang Matematika adalah penilaian yang dilakukan oleh Cliance (1997) 
pada mata kuliah Pengantar Statistik. Tugas-tugu,> yang diberikan kepada 
mahasiswa sebagai wujud dari penilaian otentik yang dilakukannya adalah 
meminta mahasiswa untuk mengumpulkan data real dari lapangan, men¬ 
gorganisasikan, mengolah, dan melaporkan hasil analisisnya. 
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Definisi lain mengena, penilaian otentik dibenkan oleh Wmograd & 

Perkinsl 1996) sebagai berikut. - 

Amh.mic oss.ssmer, is c,s.ssn,,„, ,ha, 

c<m , ex ,pf, m .ap,n ^‘‘ e Z7/Z"ZTdJL«^ ihrough 

conferences. porrfolios. u-riiimg discussjom. exp.nm.ms, pr.se ■ 
tations, exhibits, project and other methods . 

Berbeda denoan definisi Callison dan Mueller, definis. W.nograd dan 
se t perti^ada i 'co"rnoh ^'^dTn ^’ontc'h ^.^Tet^^bukan^merupakan pen.la.an 

ciri-ciri penilaian otentik adalah sebagai berikut. , 

. Higher-Order Thinhking ^^^^/val'uaZn ("awabar<iibuat 

S 3 TSS- 

. r- - r-**-^^ssrss 

^ -tsMss 

kegfatan yang mencerminkan pembelajaran yang ba.k yang 
dengan konteks kehidupan nyata). 

. «. ■«»/'.™-^ a £ rs ? zze22x 

“‘i— 

response. (prosedui dan strategi ya g ; awa ban benar yang 

dinilai bersama-sama dengan produk final atau ja»ao 

. «... o/ Br.nds 

varied acmties m refier, gn^h marun,), and <U P ,h. hadmgW ^ V 

uf strategis and P"“^f’ r "‘^Zfer soh ing o,her problems. 

assumption that these skills u M iransjtt 
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(penilaian otentik/kinerja dibangun bersama-sama dengan kegiatan- 
kegiatan yang mencerminkan pertumbuhan, kedewasaan, dan kedalaman 
yang menuju kapada strategi dan proses untuk menyelesaikan masalah 
dengan asumsi bahwa keterampilan-keterampilan tersebut dapat 
dikenakan pada permasalahan yang lain). 

Menurut O’Mallev dan Peirece (Callison. 1998). contoh-contoh 
penilaian otentik adalah sebagai berikut. 

• Oral Interviews: Teacher asks student questions aboui personal back- 
ground, activiiies , readings, and oiher interests . (guru menanyakan latar 
belakang pribadi, kegiatan-kegiatannya, bacaan, dan hal-hal lain yang 
disenanginya). 

• Story or Text Retelling: Student s retells main ideas or seleaed deiails of 
text experienced through listening or reading. (siswa menceritakan 
kembali apa ide pokok atau ide terpilih berdasarkan kegiatan mende¬ 
ngarkan atau kegiatan bercerita). 

• Writing Samples: Student generate narrative , expositor\\ pt rsuasin . <>r 
referenee paper. (siswa menulis makalah yang naratif, menjelaskan J<«n 
persuasi f j. 

• Projects/Exhibitions: Student works withother student s as a team to 
create a project that often involves multimedia production, oral, and 
written presentations, and a display. (siswa bekerja dangan siswa lainnya 
untuk membuat proyek yang sering melibatkan produksi multimedia, 
presentasi lisan atau tulis, dan pameran). 

• Experiments/Demonstrations: Student documents a series of 
experiments, illustrated a procedure, performs the necessary steps to 
complete a tasks, and documents the results of the actions. (siswa 
mendokumentasikan serangkaian eksperimen, menjelaskan prosedur, 
melakukan langkah-langkah yang diperlukan dan mendokumentasikan 
hasil kegiatannya). 

• Constructed-Response Items: Student responds in writing to open ended 
questions. (siswa menjawab secara tertulis soal-soal terbuka yang 
diberikan). 

Seiring dengan berkembangnya waktu, definisi penilaian otentik 
kadang-kadang menyimpang dari apa yang dikatakan oleh Mueller di atas. 
Banyak pakar mendefinisikan penilaian otentik menurut pemikirannnya 
sendiri, sampai-sampai Whitelock & Cross (2012) mengatakan bahwa 
“authentic assessnient is ridt only a diffic u It not ion to define bu t it i s also 
prohlematic to cdlfate features within an assessment task that define it as 
authentic assessment Ia mengakui bahwa sulit untuk mendefinisikan 
penilaian otentik yang disepakati oleh semua orang dan sulit untuk 
mengatakan ciri-ciri penilaian otentik. Namun demikian, setelah ia 
mempelajari berbagai definisi penilaian otentik dari banyak pakar, ia 
menyimpulkan bahwa kebanyakan pakar mencirikan penilaian otentik 
sebagai berikut: 
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. coliaboratUm. that is ihal e.rperienced by practitioner or ex P e ™J"' h * 
field: (adanya kerjasama. seperti yang dilakukan oleh para praktisi atau 

ahli di lapangan). . 

• simulanon of role-play or scenarios : (adanya simulasi dan suatu 
permainan aiau skenario). 

. problem tasks that are like those encoumered 

in the field; (adanya tugas yang seperti yang dialami oleh praktisi atau 

ahli di lapangan). 

. resources (documents. data, etc) taken spesificatly from real world case 
studies or research; (sumber-sumber yang ditelaah, misalnya dokumen 
atau data, diambil dari lapangan (dunia nyata) atau dan suatu nset). 

. tasks that stiulenis fmd meaningfulk (siswa merasa bahwa tugas itu 
berani atau bermakna). 

. e,anunawms taking pkue in real » ord settings: - ujian-ujian dilaksana- 
kan seperti vans terjadi di dunia nyata). 

. „ ramte qt 'assessment tasks rather than jus, naditionar ones; (tugas 

sebagai wujud dari penilaiannya tidak lagi tradisional;. 

. demonstration and use of judgement; (menunjukkan dan mengguna an 
justifikasi). 

. students being involved in the negotiation of the assessment task; (siswa 
dilibatkan dalam penentuan tugas). 

. a test of how well the student thinks like practitioaer/expert m the fie 
(i.e. ‘intune’ with the ‘disclipinary mind’); (tes untuk melihat apa y g 
siswa pikirkan seperti cara pemikiran praktisi atau ahli di lapang )• 

Kurikulum 2013 melalui Permendikbud Nomor 66 Tahun 2013 
tentang Standar Penilaian Pendidikan menyatakan bahwa penilaian oten i 
adalah*penilaian yang dilakukan secara 

dari masukan ( input ), proses, dan keluaran (outpu )pe J j - 

lain, Permendikbud Nomor 104 Tahun 2014 tentang ^n'latan Hasd Belajar 
oleh Pendidik menyatakan bahwa penilaian otentik adal f ^" 1 ‘^Y [ f 
menghendaki peserta didik menampilkan sikap, menggunakan penget^uan 
dan keterampilan yang diperolehnya dari pembelajaran dalam melakUun 
tugas pada situasi yang sesungguhnya . Permendikbud Nomo 
2014 juga mengatakan bahwa "soal tes tertulis yang menja i pen^R^ 
otentik adalah soal yang menghendaki peserta didi 
jawabannya sendiri, seperti soal-soal uraian”. Menggunakan defin.^ 
penilaian otentik pada Kurikulum 2013 bisa jad. butir soal C« Jn 
Contoh 9.4 merupakan penilaian otentik , yang menurut Mue ler (1005);da 
Winograd & Perkins (1996) bukanlah penilaian otentik. Menurut Kunku.u 
2013 ^tampaknya, yang bukan merupakan penilaian otentik ad^ah penilaian 
yang dinyatakan dalam bentuk pilihan ganda seperti misalnya pada Ujian 
Nasional. 


' Menurut penulis, definis, penilaian otentik di Kurikulum 2013 tidak benar-benar jelas. 
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Sebagai catatan mengenai penilaian otentik ini, sebaiknya jangan 
mengharapkan penilaian otentik dapat dengan mudah diterapkan pada semua 
mata pelajaran. Penilaian otentik sangat sukar diterapkan pada pelajaran 
yang lebih bersifat kognitif, seperti Matematika, melainkan mudah 
diterapkan pada mata pelajaran di SMK bidang keahlian Tata Busana dan 
Tata Boga. 

BAHAN DISKUSI 

1. Dikenal adanya dua penilaian, yaitu penilaian formatif dan penilaian 

sumatif. Manakah yang lebih membantu siswa belajar, penilaian 
formatif atau penilaian sumatif? * 

2. Perhatikan penilaian yang dilakukan oleh guru atau dosen Anda. Ma¬ 
nakah yang lebih banyak dilakukan oleh guru dan dosen Anda, 
penilaian formatif atau sumatif? 

3. Di Kurikulum 2013 dikenal adanya ulangan harian, yang didefinisikan 
sebagai penilaian yang dilakukan setiap menyelesaikan satu muatan 
pembelajaran. 

a. Dapatkah ulangan harian berfungsi sebagai penilaian formatif? Pada 
keadaan seperti apa? 

b. Dapatkah ulangan harian berfungsi sebagai penilaian sumatif? Pada 
keadaan seperti apa? 

4. Seorang guru memberikan ulangan harian setelah selesai membelajar¬ 
kan satu muatan tertentu. Guru itu lalu memeriksa pekerjaan siswa- 
siswanya, memberi nilai, dan menyimpan nilai itu untuk menentukan 
nilai rapor akhir semester. Tidak ada komentar apapun mengenai pe¬ 
kerjaan siswa. Guru hanya memberi nilai saja. 

a. Apakah diperkenankan seorang guru memberi ulangan harian seperti 
itu? Mengapa? 

b. Pelaksanaan ulangan harian seperti merupakan penilaian formatif 
atau sumatif? Mengapa? 

5. Di tengah-tengah pembelajaran, seorang guru Matematika memberikan 
soal pendek untuk dikerjakan di kelas selama 10 menit. Setelah selesai 
pengerjaan, setiap murid diminta untuk menilai dan memberi komentar 
terhadap pekerjaan temannya dengan menggunakan rubrik penilaian 
rinci yang dibuat oleh gurunya. Penilaian semacam itu adalah salah satu 
contoh peer-assessment (penilaian teman sejawat). 

a. Apakah penilaian teman sejawat tersebut dapat dikatakan sebagai 
assessment for learning ( AfL)? Mengapa? 
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b. Apakah penilaian teman sejawat tersebut dapat dikatakan sebagai 

penilaian formatif? Mengapa? , 

c. Apakah menurut Anda, penilaian teman sejawat tersebut perlu < 

lakukan oleh guru di kelas? Mengapa 1 


6 . 


Di akhir suatu pembelajaran, seorang guru Matematika memberikan 
soal pendek untuk dikeijakan di kelas selama 10 menit. Setelah selesa: 
pengerjaan, setiap murid diminta untuk menilai dan memberi komentar 
terhadap pekerjaan temannya dengan menggunakan rubrik penilaian 
rinci yang dibuat oleh gurunya. Penilaian semacam itu juga merupa an 
contoh peer-cissessment (penilaian teman sejawat). 

a. Apakah penilaian semacam itu merupakan AfL? Mengapa. 

b. Apakah penilaian semacam itu dapat disebut sebagai pun aian 

sumatif? Mengapa? 


7. Pada Kurikulum 2013 dikenal adanya ulangan harian, ulangan tengah 
semester, dan ulangan semester. Ulangan harian adalah penilaian >ang 
dilakukan setiap menyelesaikan satu muatan pembelajaran. Ulangan 
tengah semester adalah penilaian yang dilakukan untuk semua muatan 
pembelajaran yang diselesaikan dalam paruh pertama semester 
Ulangan akhir semester adalah penilaian yang dilakukan untu semu- 
muatan pembelajaran yang diselesaikan dalam satu semester. 

a. Dari ketiga penilaian itu, manakah yang merupakan penilai 

berbasis kelas? Mengapa? „ .. 

b. Dari ketiga penilaian itu, manakah yang merupakan AtL. 

c. Darfketiga penilaian itu, manakah yang merupakan penilaian 
otentik? Mengapa? 

8 . Apakah setiap soal bentuk uraian merupakan wujud dari penilaian 
otentik? Mengapa? 


9 Misalnya seorang siswa taman kanak-kanak diminta untuk mencerna 
kan cita-citanya jika ia dewasa. Apakah seperti itu merupakan pen.la.au 
otentik? 


10 . 


Setujukah Anda terhadap pendapat bahwa penilaian otentik adalah pe 
nilaian yang tidak dalam bentuk benar-salah, atau menjodohkan, atau 

pilihan ganda? Mengapa? 
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BAB X 

PENILAIAN PORTOFOLIO 

PENDAHULUAN 

Penilaian portofolio relatif baru dalam pengukuran pendidikan. Na¬ 
mun demikian, penilaian ini banyak menarik perhatian para pendidik, kare¬ 
na penilaian ini memberikan alternatif lain dalam penilaian pembelajaran. 

. Portofolio adalah kumpulan keija (prestasi) seseorang yang tersusun 
secara sistematis. Dalam pembelajaran, portofolio merujuk kepada kum¬ 
pulan sistematis kerja atau karya siswa. Pada kenyataannya, portofolio 
merupakan metode yang bagus bagi para profesional untuk menunjukkan 
keterampilan dan kemampuannya. Dalam bidang fotografi, misalnya, 
kumpulan foto-foto seorang fotograf yang dipamerkan akan menunjukkan 
seberapa profesional fotografer tersebut. Dalam bidang seni lukis, misalnya, 
kumpulan lukisan yang dipamerkan oleh seseorang akan menunjukkan 
seberapa tinggi kemampuan pelukis yang bersangkutan. Pada kasus seperti 
ini, portofolio adalah metode yang paling bagus untuk menunjukkan 
keterampilan dan keahlian seseorang. Fitur penting portofolio adalah bahwa 
portofolio harus terbarui seiring dengan pertumbuhan keterampilan dan 
kemampuan seseorang. . . , 


PEMAKAIAN DI KELAS 

Para pendukung penilaian portofolio percaya bahwa hubungan antara 
pembelajaran dan penilaian dapat diperkuat sebagai konsekuensi dari 
akumulasi kerja siswa yang terus menerus dalam portofolionya. Secara ideal, 
guru yang menggunakan portofolio dalam pembelajarannya akan meletakkan 
ongoing collection and appraisal students* work sebagai sentral dari 
program pembelajarannya dibandingkan dengan peripheral activity di mana 
hanya secara sekali-kali guru mengumpulkan data untuk meyakinkan 
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pengawas atau orang tua murid bahwa segala sesuatu telah berjalan baik di 

dalam kelas. . 

Berikut ini diberikan contoh penggunaan portofolio untuk menilai 
kemaiuan siswa dalam mata pelajaran Bahasa Indonesia, dalam hal mi 
menulis karangan. Si Guru, misalnya namanya Pak Pholio. meminta para 
siswanya untuk menyimpan tiga portofolio. Pada 

siswa diminta menyimpan pekerjaan mereka dan Pak Pholio 

mendapatkan balikan. Setiap pekerjaan diben tanggal sehingga Pak Phol '° 
dan "swa dapat melihat seberapa jauh perbedaan kualitas terjadi pada 
sepanjang waktu. Asumsinya, jika pembelajaran efektif dapat berlangsu g, 
pasti dapat dilihat peningkatan kualitas siswa dalam menulis ka,angan. 

' T i«a atau empat kali dalam satu semester. Pak Pholio mengadakan 
presentasi portofolio" selama 15-20 menit untuk set.ap orunj -nengemu 
masing-masing portofolionya. Selama presentasi guru dan siswa yang 
bersamikatan melakukan penilaian terhadap hasil keijany _ Mc-je.ang 
K^r ik hTrnv i semester siswa-siswa diminta memamerkan hasil kerjanya, 
tidak saja hasil keijanya yang terbaik, tetapi juga cara mendapatkannya. 
Pameran ini dipajang di tempat tertentu, sehingga orang tua siswa yang 
berkunjung ke sekolah dapa, melihatnya. Pak Guru juga dapat mengirimkan 
portofolio siswa, jika orang tua tidak dapat berkunjung ke sekolah. 

Salah seorang tokoh pembelajaran dan penilaian di bidang seni, Roger 
Farr. mengatakan tahwa *,«/ payolff™ prpper pp.pfpl.o m.w.,. 
,ka s Jen, s' self-tMon capMli.ies are enhonced Jadn «*». 
konferensi portofolio, guru men -encourage siswa untuk dapat menuai 
karvarirva 1 sendiri Kecuali itu, kemampuan siswa untuk menilai d.nnya 
sendiri dikembangkan, tidak saja pada konferensi portofolio, tetapi juga 
selama berlangsungnya pembelajaran di sekolah. 

Untuk tujuan evaluasi diri, para siswa diminta untuk membandingkan 
hasil kerja semula dengan hasil kerja berikutnya. Evaluasi d.r. m. dianggap 
sa“gnVSn£n" baik L M p«pdnif pembelajaran, le.ap, .,nga pada masa 

depan kehidupan mereka. 

Penilaian portofolio, di samping dilakukan oleh siswa sendiri, tentu 
saja juga dilakukan oleh guru. 

Penilaian portofolio sangat bagus dikenakan untuk n.ata-mata 
pelajaran tertentu, misalnya Bahasa Indonesia. Pada mata pelajaran in. para 
peserta didik dapat diminta mengumpulkan portofolionya yang berupa has 
kerjanya (misalnya puisi dan cerpen) di majalah-majalah tertentu. Pen la.a, 
portofolio tentu saja sangat bagus untuk mata-mata pelajaran keterampi an 
SMK mtinva Tata Busana. Pada waktu-waktu tertentu siswa dapa, me¬ 
mamerkan hasil karyanya di hadapan para siswa lainnya. 
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LANGKAH-LANGKAH PENILAIAN PORTOFOLIO DI KELAS 

Berikut ini diberikan beberapa langkah penting untuk melakukan 

penilaian portofolio. 

1. Agar portofolio dapat menyatakan perkembangan kerja siswa secara 
akurat dan untuk memperkuat semacam penilaian diri yang sangat 
krusial dalam portofolio» siswa harus diberi penjelasan bahwa porto¬ 
folio adalah kumpulan dari kerja mereka sendiri dan bukan semata-mata 
wadah kerja siswa yang akan dinilai oleh gurunya. Dalam konteks ini, 
guru dapat menjelaskan fungsi yang berbeda dari biasanya dalam 
penilaian portofolio. 

2. Berbagai jenis kerja siswa dapat dipilih untuk dimasukkan ke dalam 
suatu portofolio. Yang lebih bagus adalah guru dan siswa berunding 
untuk menentukan kerja apa yang akan dimasukkan ke dalam portofolio. 

3. Siswa diminta untuk mengumpulkan hasil kerjanya dalam suatu wadah 
yang baik dan menempatkannya ke dalam suatu tempat yang baik, 
misalnya ftle cabinet. Guru dapat membantu siswa memilih kerja siswa 
yang harus dimasukkan ke dalam portofolio. 

4. Guru bersama-sama dengan siswa menentukan kriteria untuk menen¬ 
tukan kualitas portofolio. Barangkali hal ini bukanlah sesuatu yang 
mudah dikerjakan» karena portofolio lebih bersifat individual. 

5. Dengan menggunakan kriteria yang telah disetujui» siswa dapat 
diarahkan untuk mengevaluasi kerjanya, baik secara holistik maupun 
secara analitik, atau kombinasi di antara keduanya. Semacam penilaian 
diri dapat dibuat secara rutin dengan menggunakan kartu, misalnya, 
yang mengidentifikasi kekuatan dan kelemahan kerja siswa serta 
melakukan usulan bagaimana kualitas kerja itu dapat ditingkatkan. 

6 . Tukar pikiran antara guru dan siswa mengenai hasil kerja siswa 
merupakan aspek penting untuk meyakinkan bahwa penilaian portofolio 
memenuhi tujuannya. Presentasi tidak saja berfungsi untuk menilai kerja 
siswa, tetapi juga untuk meningkatkan kemampuan penilaian diri siswa. 
Adakan presentasi portofolio sebanyak mungkin,-Agar supaya presentasi 

, . portofolio efisien, usahakan agar siswa benar-benar siap untuk 
menyajikan the topics of most concern baik untuk guru maupun siswa. 

7. Guru harus memberi tahu kepada orang tua siswa untuk mengerti the 
nature of the portofolio assessment process. Diharapkan orang tua siswa 
dapat pula mengikuti perkembangan siswa. Semakin aktif orang tua ikut 
mereview hasil kerja siswa, semakin kuat pesan penilaian portofolio 
untuk kemajuan anaknya. 
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KEUNGGULAN-KEUNGGULAN PENILAIAN PORTOFOLIO 

Menurut Reynolds. Livingstone. dan Wiilson (2010: 271). penilaian 
portofolio mempunyai sejumlah keunggulan sebagai berikut. 

Portofolio sangat bagus untuk menunjukkan prestasi siswa dan per 
kembangannya dari waktu ke waktu. Dalam keahlian melukis, misalnya 
kumpulan lukisan seseorang akan menunjukkan perkembangan kematangan 
melukisnya dari waktu ke waktu. Dalam keahlian menulis centa pendek 
dan/atau artikel di koran, seseorang juga akan dapat melihat perkembangan 
kematangan menulis. 

Portofolio dapat meningkatkan kemampuan siswa dalam suatu hal dan 
pada akhirnya meningkatkan prestasi dan produk mereka. Kaoa-karya yang 
dimasukkan ke dalam portofolio dipilih oleh siswa sendiri an 
dipamerkan kepada orang lain, sehingga hal ini dapat menimbulkan motivasi 
dan kehendak untuk terus belajar lebih giat. 

Untuk siswa yang produktif, portofolio dapat dipakai sebagai sarana 
untuk melakukan penilaian terhadap karya-karyanya. Dalam jangka panjang 
hal ini akan memupuk kemampuan siswa untuk dapat melaksanakan dan 
meningkatkan self-cissessment skills. 

Jika digunakan secara baik, portofolio dapat meningkatkan keter¬ 
kaitan antara pembelajaran dan penilaian. Pada waktu-waktu tertentu, 
oortofolio siswa dapat dipamerkan dan didiskusikan di kelas. Dalam kasus 
seperti ini, maka pembelajarannya menyatu dengan penilaian portofolio itu 
sendiri. 

Guru yang baik harus selalu mengikuti kemajuan belajar siswanya. 
Dalam kasus portofolio, guru yang baik harus selalu mengikuti perkem¬ 
bangan hasil karya siswanya dan memberikan komentar atas karya-ka^a 
tersebut. Oleh karena itu, melalui portofolio akan terjadi komunikasi yang 
baik antara guru dan siswa. 

KELEMAHAN-KELEMAHAN PENILAIAN PORTOFOLIO 

Pada penilaian portofolio, seperti halnya pada constmcted-response 
mca'iirement , sulit dilakukan penilaian secara masai, sebab penilaian 
portofolio pada dasarnya harus merupakan keinginan minat, dan 
kemampuan individual siswa. Terkait dengan ini, pada penilaian P°rtotoho 
juga sulit untuk membuat kriteria penilaian yang dapat mengakomod s 
semua kerja siswa. 

Pelaksanaan penilaian portofolio menyita banyak waktu, sehingga 
untuk guru yang sangat sibuk akan sulit untuk dapat melakukan penilaian 
portofolio dengan baik. Namun demikian, pendukung penilaian P ortofol '° 
meyakinkan bahwa waktu yang terpakai untuk melakukan penilaian 
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portofolio akan terbayar dengan tumbuhnya evaluasi diri siswa yang kelak 
akan berguna bagi hidupnya. 

Pada dasarnya penilaian portofolio terkait dengan karya-karya (me¬ 
lukis, menulis, memahat, membuat produk, dan semacamnya), yang oleh 
karenanya terkait erat dengan aspek psikomotor. Der.zan demikian, peni¬ 
laian portofolio tidak dapat dengan baik diterapkan pada mata pelajaran yang 
bersifat kognitif, seperti Matematika. Namun demikian, sering kali 
diharapkan portofolio dapat diterapkan untuk semua mata pelajaran. 
Sehingga oleh karenanya, wujud portofolio di mata pelajaran Matematika 
adalah kumpulan pekerjaan siswa dalam mengerjakan soal, yang hal ini 
sebenarnya menyimpang dari pengertian portofolio semula. 

Kelemahan menonjol pada penilaian portofolio adalah sukar dalam 
penskorannya. Pada kasus ini sukar untuk menentukan rubrik penskorannya 
yang adil. Kecuali itu, unsur subjektivitas penilai sangat menonjol dalam 
penilaian portofolio. 


RUBRIK PENILAIAN PORTOFOLIO 

Berikut ini adalah contoh rubrik penilaian portofolio pada mata pela¬ 
jaran Bahasa Indonesia yang diambil dari Permendikbud Nomor 104 Tahun 
2014 , sebagai berikut. 


Contoh 10.1 


Nama Siswa: 


No 

Kompetensi 

Dasar 

Periode 

Aspek yang Dinilai 

Kete¬ 

rangan 

Tata 

Bahasa 

Kosa 

Kata 

Gagas¬ 

an 

Siste¬ 

matika 

1 

Menulis 

karangan 

deskriptif 





















2 

Membuat 
resensi buku 










i . 





i 
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BAHAN DISKUSI 

1. Menurut Anda, dapatkah penilaian portofolio dipakai pada Ujtan Nasio- 
nal? Mengapa? 

2. Menurut pendapat Anda, apakah penilaian portofolio dapat diterapkan 
untuk semua mata pelajaran? Mengapa? 


3. Rencanakan penilaian portofolio, jika memungkinkan, untuk matapela 
jaran: 

a. Matematika 

b. Sejarah 

c. Ilmu Pengatahuan Alam 

d. Ilmu Pengetahuan Sosial 

e. Bahasa Indonesia 

f. Bahasa lnggns 


4. 


5 . 


Pada awal tahun dua-ribuan, para guru diminta untuk mengumpulkan 
portofolio dalam rangka sertifikasi pendidik. ^ 

oleh guru tersebut? Apakah kegiatan itu juga merupakan kegiatan 

penilaian portofolio? Jelaskan! 


Menurut pendapat Anda, apakah guru wajib mempelajari dan menerap 
kan penilaian portofolio di kelasnya? Mengapa. 

* * -fc * >: 
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BAB XI 

DIFFEENT1A L ITEM FUNCTIONING 

PENDAHULUAN 

Riset mengenai bias butir ( iiem bias) telah dimulai sejak tahun 
1910 oleh Alfred Binet ketika dia berpikir bahwa beberapa butir soal 
inteligensi yang dibuatnya mungkin lebih mengukur efek pengalaman 
kultural daripada mengukur kapasitas mental. Riset yang sama dilaku¬ 
kan oleh Wiliam Stern pada tahun 1912 yang menyelidiki perbedaan 
kelompok pada tes inteligensi di Jerman. Stern menyelidiki sebab- 
sebab yang mungkin muncul pada perbedaan hasil suatu tes inteligensi 
(Camilli & Shepard, 1994: 4). 

Walaupun telah dimulai sejak awal abad ke-20, oleh Binet dan 
Stern, studi mengenai bias butir pada suatu tes pertama kali dilakukan 
secara sungguh-sungguh baru pada tahun seribu sembilan ratus 
enampuluhan (Angoff, 1993: 3). Studi tersebut didesain untuk 
mengembangkan metode yang mempelajari adanya perbedaan budaya 
dan menyelidiki pernyataan yang mengemukakan bahwa sebab utama 
perbedaan antara siswa kulit hitam dan kulit putih di Amerika Serikat 
pada tes kemampuan kognitif adalah bahwa tes memuat butir-butir 
soal yang berada di luar wilayah budaya minoritas. Asumsi awalnya 
adalah bahwa butir-butir soal berkaitan dengan materi yang siswa- 
siswa kelompok minoritas mempunyai kesempatan yang lebih kecil 
untuk mempelajarinya. Tujuan spesifik dari studi ini adalah untuk 
mengidentifikasikan butir-butir soal yang bias terhadap siswa-siswa 
kelompok minoritas dan kemudian membuangnya dari tes. 
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Bias tidak dihasilkan dari kekeliruan random pengukuran. Tidak 
ada tes yang secara sempurna mengukur trait atau domain pengetahu¬ 
an vang dimaksudkan untuk diukur, tetapi sepanjang kekeliruan 
pengukuran mengenai anggota-anggota kelompok yang berbeda 
secara sama, tes tersebut tidaklah bias. Konsep bias butir juga harus 
dibedakan dengan adverse impact. Adverse impact atau perbedaan 
rerata antarkelompok tidak dengan sendirinya bukt ‘ 

adanya bias. Perbedaan rerata antarkelompok dapat disebabkan karena 
kemampuan kelompok yang pertama secara keseluruhan lebih baik 
daripada kemampuan kelompok yang kedua, namun pada anggota 
anggota kelompok vang kemampuannya sama dapat saja tidak ter a- 
pat perbedaan. Hal'yang demikian bukanlah suatu bias dalam suatu 

tes. 

Terdapat dua pendekatan statistik untuk mendeteksi adanya bias 
tes. Pertama, adalah dengan berdasarkan kriteria yang ada di luar tes 
dan yang kedua adalah dengan berdasarkan kriteria internal yang ada 
pada tes. Dua pendekatan tersebut dijelaskan pada paragraf-paragraf 
berikut. 

Berbagai prosedur bias internal dikembangkan dengan meng¬ 
gunakan skor total atau skor sejumlah butir soal di dalam tes sebagai 
kriteria untuk menentukan perbedaan kelompok. Kemudian, bi is 
diartikan sebagai kesulitan butir relatif yang berbeda pada kelompok 
vang berbeda. Ide konsep ini adalah memasangkan skor peserta ujian 
pada skor total untuk melihat apakah pembandingan peserta tes dan 
kelompok yang berbeda menunjukkan hasil yang sama atau berbeda 
pada suatu butir soal. Jika berbeda, butir diduga bias. 

Sebagai konsekuensi, peneliti yang menyelidiki bias butir de 
n»an kriteria internal memilih menggunakan tes sebagai satu kesatu¬ 
an sebagai kriteria pengganti untuk memasangkan kemampuan 
kelompok. Dalam usaha tersebut, disadari sejak semula bahwa studi 
meneenai bias dengan kriteria internal dapat salah apabila kritena i u 
sendiri tidak baik, khususnya jika kriteria itu sendin bias. Dalam kea¬ 
daan seperti ini. sangat dimungkinkan butir-butir yang dianggap b,as 
ternyata tidak bias dan sebaliknya butir-butir yang dianggap tidak bias 
ternyata bias. 

Dalam usaha untuk menyelidiki bias butir, berbagai metode 
dikembangkan oleh para ahli psikometrika untuk menentukan bagai¬ 
mana butir yang menyimpang (abenam) itu bisa terjadi, i am 
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demikian, yang diperoleh dari berbagai studi tersebut hanyalah 
temuan statistik, yang masih memerlukan adanya interpretasi dan 
keputusan apakah butir-butir soal yang terdeteksi tersebut merupakan 
butir-butir soal yang bias atau bukan. Beberapa butir soal yang tidak 
normal tersebut dapat merupakan butir-butir soal yang memang bias, 
dalam arti bahwa mereka bertindak tidak adil terhadap kelompok 
minoritas. Namun demikian, beberapa di antaranya dapat juga 
diputuskan sebagai butir-butir soal yang adil, dalam arti bahwa hal-hal 
yang diujikan tersebut merupakan outcomes yang penting, cocok 
untuk semua siswa, tetapi tidak secara sama diketahui dan dimengerti 
oleh semua siswa. 

Dalam keadaan tertentu, pengertian bias cukup jelas dimakna¬ 
kan, namun kadang-kadang menimbulkan konflik semantik. Kata bias 
dapat membingungkan ketika pada saat-saat tertentu bias diartikan 
sebagai perbedaan besar dalam perolehan skor, misalnya kelompok 
pertama mempunyai rerata skor yang lebih besar daripada rerata skor 
kelompok kedua. Beberapa usulan dibuat untuk menggunakan istilah 
lain selain bias dalam kaitannya dengan observasi statistik. Akhirnya, 
istilah keberbedaan fungsi butir (<differential item functioning , DIF) 
digunakan untuk menunjuk kepada hasil observasi bahwa sebuah butir 
soal berperan berbeda secara statistik pada kelompok yang berbeda. 
Kemudian, bagaimana butir-butir soal yang terdeteksi tersebut 
diputuskan dan digunakan, dalam arti apakah terjadi bias secara sosial 
dan langkah-langkah apa yang akan diambil, adalah persoalan lain 
yang terpisah. 

PENGERTIAN DIF 

Secara konseptual, DIF dikatakan muncul pada sebuah butir 
soal, jika peserta tes yang mempunyai kemampuan yang sama pada 
konstraks yang diukur oleh tes, tetapi berasal dari kelompok berbeda, 
mempunyai peluang berbeda dalam menjawab benar butir soal 
tersebut (Hulin, Drasgow & Parson, 1993: 152, Roussos, Schnipkc & 
Pashley, 1999: 293; Penfield & Lam, 2000: 6). Untuk menentukan 
apakah suatu butir soal terindikasi DIF atau tidak, diperlukan indeks 
D/F, yaku indeks yang menunjukkan seberapa kuat indikasi DIF ada 
pada butir itu. Jika tingkat indikasi DIF tersebut secara praktik 
dianggap signifikan, dapat dengan mengujinya memakai uji statistik 
tertentu atau hanya dengan melihat indeksnya saja, maka butir soal 
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yang bersangkutan dikatakan terkena DIF. memuat D/F, atau 
terdeteksi sebagai butir DIF. 

Dalam konteks teori respons butir, teijadi atau tidak terjadinya 
DIF pada sebuah butir soal terletak kepada fungsi respons butir (iiem 
response functiori) untuk butir soal tersebut pada kelompok yan ; : 
dipersoalkan. Kurva yang menggambarkan fungsi respons butir 
disebut kurva respons butir atau kurva karakteristik butir ( itei i 
characteristic curve, ICO ■ Jika sebuah butir soal mempunyai fungn 
respons butir yang tepat sama untuk setiap kelompok, maka setiap 
peserta tes pada setiap kemampuan atau skill 0 mempunyai peluang 
yang tepat sama untuk menjawab benar, terlepas dari keanggotaan 
kelompok. Butir soal yang demikian merupakan butir soal yang ti 
memuat DIF. Hal ini tetap benar sekalipun suatu kelompok mempu¬ 
nyai rerata 0 yang lebih rendah, yang berarti mempunyai skor tes yang 
lebih rendah dibandingkan dengan skor tes kelompok yang lain. 
Dalam kasus seperti ini, hasil tes menunjukkan adanya perbedaan 
kemampuan kelompok dan bukanlah menunjukkan adanya bias. 
Sebaliknya, jika sebuah butir soal mempunyai fungsi respons but: 
yang berbeda untuk kelompok yang berbeda, im mempakan pertand » 
adanya DIF pada butir soal tersebut. 

Terdapat dua jenis DIF , yaitu DIF uniform (konsisten) dan Dh' 
tidak uniform (tidak konsisten). DIF uniform muncul jika keuntungan 
salah satu kelompok terhadap kelompok lainnya terjadi pada setiap 
level kemampuan, sedangkan DIF tidak uniform muncul jrnn 
keuntungan salah satu kelompok terhadap kelompok lainnya tidar 
terjadi pada setiap level kemampuan (Penfield & Lam 2000: 9). Jika 
dikaitkan dengan pengertian interaksi, yang populer pada uji statistik 
analisis variansi, DIF uniform terjadi jika tidak terdapat interaksi 
antara tingkat kemampuan peserta tes dan keanggotaan kelompok dan 
DIF tidak uniform terjadi jika terdapat interaksi antara tingkat 
kemampuan peserta tes dan keanggotaan kelompok (Rogers & 
Swaminathan, 1993: 105). 

Terkait dengan teori respons butir, DIF uniform terjadi jika 
kurva karakteristik butir untuk suatu butir soal berbeda untuk 
kelompok yang berbeda dan kedua kurva tersebut tidak saling 
berpotongan. Sebaliknya, DIF tidak uniform terjadi jika kurva 
karakteristik butir untuk suatu butir soal berbeda untuk kelompok 
yang berbeda, namun kedua kurva tersebut berpotongan. Dua situasi 
DIF tersebut ditunjukkan pada Gambar 11.1 dan Gambar 11,2. 
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Gambar 11.1. Salah Satu Kun a Fungsi Respons Berada 
di Atas Kun>a Fungsi Respons yang Lain 


P (W) 



Gambar 11.2. Kedua Kurva Fungsi Respons 
Berpotongan 


Pada Gambar 11.1, kurva karakteristik butir untuk suatu 
kelompok berada di atas kurva karakteristik butir untuk kelompok lain 
pada setiap 9. Ini berarti, pada setiap level kemampuan yang sama, 
peserta tes pada kelompok pertama mempunyai peluang yang lebih 
baik untuk menjawab benar butir soal tersebut dibandingkan dengan 
peserta tes pada kelompok kedua. Situasi seperti ini adalah pertanda 
adanya D1F uniform. Butir soal yang kurva karakteristik butirnya 
seperti pada Gambar 11.1 menguntungkan kelompok B, dan sebalik¬ 
nya merugikan kelompok A, untuk setiap level kemampuan. 
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Pada Gambar 11.2, kurva karakteristik butir untuk dua kelompok 
berpotongan. Ini berani, pada level kemampuan tertentu, kurva ka¬ 
rakteristik butir untuk suatu kelompok berada di atas kurva kar - 
teririk butir untuk kelompok yang la,n dan pada level kemampuan 
vane lain terjadi sebaliknya. Butir soal seperti mi memuat DIF yang 
menguntungkan kelompok pertama pada peserta -es yangl-W» 
inte^al kemampuan tertentu dan menguntungkan kelompok kedua 
pada peserta tes yang mempunyai interval kemampuan yang lam. D/ 
yang terjadi disebut DIF tidak uniform. Pada praktiknya DIF 
uniform jarang terjadi (Camilli & Shepard, 1994: 66). 

WAKTU PENDETEKSIAN DIF 

Seperti disebutkan pada Pendahuluan, pendeteksian DIF meru¬ 
pakan bagian esensial dan pengembangan tes. In. berarti sebelurn tes 
digunakan harus dilakukan uji coba untuk mendeteksi keberadaan 
D f F sama seperti ketika pengembang tes melihat kelayakan nila 
bu., P t-bu,,t soak Dengan cara ini. pengembang 
menganalisis butir-butir soal yang terkena DIF dan ™" 8 J 
apakah butir tersebut tetap dipertahankan atau dibuang dan tes. 

Namun demikian, seperti yang dikatakan oleh Gierl, Khahq dan 

Boughton (1999). ketika melakukan deteksi DIF pada ujian 
ESka dan Sains d, Albetta. tidak semua ^ngembangj» 
melakukan deteksi DIF pada saat pengembangan tes. Dalam 
seperti ini, pendeteksian DIF setelah tes dilakukan masih tetap 
berguna untuk pengembangan tes di tahun-tahun berikutnya. 

Ketika pendeteksian DIF tidak dapat dilakukan pada saat pe- 
ngembangan S otrl. Kha, iq dan Bongbton ,.999: 16, mengu-»n 
dua tahapan berikut. Tahap pertama, pengkajian tes (test revte ) 
dilakukan pada saat pengembangan tes oleh ^^fedua^sefeS 
(reviewers), seperti yang telah biasa 

tes dilaksanakan, dengan menggunakan hasil /"tftane terkena 
nenakaii vang sama menginterpretasikan butir-butir soal yang terken 

DIF. Dua rahapan .erseU dapa. sensUize *»*P«*^“ 
writers to the source of DIF, and to rednccthe number of DIF ttem. 
on a tesi " (Gierl, Khaliq dan Boughton, 1999: ,6). 
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TINDAK LANJUT TERHADAP KEBERADAAN DIF 

Penyebab munculnya DIF. yang menunjukkan bahwa suatu butir 
soal berfungsi berbeda, dapat bermacam-macam, antara lain, karena 
butir soal tersebut menguntungkan salah satu kelompok karena 
susunan bahasanya atau karena substansi yang ditanyakan lebih 
dikenal oleh salah satu kelompok. Penyebab munculnya DIF dapat 
juga karena adanya perbedaan fasilitas antarkelompok, adanya 
perbedaan kemampuan guru yang mengajar, dan adanya pelaksanaan 
tes yang tidak adil. 

Untuk butir-butir soal yang terkena DIF harus dilakukan 
pembahasan lebih lanjut apakah butir-butir soaktersebut tetap dipakai 
atau dibuang dari sebuah tes. Jika penyebab munculnya DIF tidak 
terkait dengan konstruks yang diukur oleh tes, misalnya karena 
menggunakan istilah yang lebih dikenal oleh suatu kelompok diban¬ 
dingkan dengan kelompok vang lain, maka butir soal yang terkena 
DIF tersebut harus dibuang dari tes. Misalnya sebuah butir soal 
menanyakan berapa banyaknya roda pada tiga buah becak pada 
matapelajaran Matematika. Jika butir soal tersebut terkena DIF yang 
menguntungkan peserta tes dari wilayah perkotaan dibandingkan 
dengan peserta tes dari wilayah pegunungan, maka patut diduga 
bahwa peserta tes dari wilayah pegunungan tidak dapat menjawab 
butir soal tersebut karena tidak sering melihat becak. Butir soal yang 
seperti ini merupakan butir soal yang jelek dan disebut butir soal yang 
bias. Butir soal yang bias harus dibuang dari tes atau paling tidak 
direvisi kembali sebelum dipakai. 

Di sisi lain, sebuah butir soal yang terkena DIF dapat saja masih 
tetap dipertahankan dalani sebuah tes. Dengan kata lain, butir soal 
tersebut tetap merupakan butir soal yang tidak jelek, walaupun terkena 
DIF. Namun demikian, tetap diperlukan langkah-langkah lanjutan 
untuk menghilangkan sumber munculnya DIF. Misalnya terdapat 
sebuah butir soal yang terkena DIF yang menguntungkan peserta tes 
dari wilayah A dan merugikan peserta tes dari wilayah B. Setelah 
dianalisis substansi yang ditanyakan dan bahasa yang digunakan, 
ternyata tidak ada unsur yang menguntungkan peserta tes dari wilayah 
A yang disebabkan oleh faktor substansi dan bahasa. Butir soal yang 
demikian ini merupakan bulir soal yang tidak bias dan tetap harus 
dipertahankan dalam tes. Penyebab munculnya DIF pada butir soal 
tersebut dapat diduga berasal dari haLhal di luar tes, misalnya 
subpokok bahasan yang ditanyakan tidak diajarkan di wilayah B tetapi 
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diajarkan di wilayah A, proses pembelajaran dan tasil “ 
pembelajarannya lebih baik di wilayah A danpada di wilayah B dan 
semacamnya. Langkah yang harus dilakukan oleh pengambil 
kebijakan adalah menghilangkan adanya DIF pada butir soal terse u 
dengan memperbaiki proses pembelajaran di wilayah B den an 
harapan pada tahun berikutnya butir soal tersebut tidak terkena D 
yang menguntungkan peserta tes dari wilayah A. Dengan sendirinya 
hal S ini dapat dilakukan jika terdapat standardisasi maten yang 
diajarkan dan terdapat standardisasi kompetensi yang harus dicapai 
oleh siswa. 

Jika karena sesuatu hal, pendeteksian DIF baru dapat dilakukan 
setelah tes dipakai untuk menentukan keputusan dan ternyata setelah 
melalui pengkajian, terdapat sejumlah butir soal >' an g s ^‘‘ ru ^^ 
dibuang dari tes, maka pengembang tes harus membuang b 
tersebut dari bank soal. Dalam kasus seperti ini harus di^adan bahvca 
mungkin terjadi kesesalan keputusan pendidikan yang telah diam 
berdasarkan hasil tes. Pengembang tes dapat membui data base 
mengenai butir-butir soal yang bias tersebut sebagtu bahan pijakan 
untuk mengembangkan tes di masa berikutnya agar dapat terbebas 

dari DIF. 

Jika pada suatu riset tertentu, yang mungkin dilakukan oleh 
lembaga di luar pengembang tes, ditemukan adanya DIF Ma suatu 
tes, maka menjadi kewajiban pengembang tes untuk melakukan tin 
lanjut terhadap adanya DIF pada tes yang dikembangkannya^ Hal n 
sesuai dengan prosedur dalam testing yang mengatakan bahwa, whe 
crTZle research reports that differential item functwning ex,s 
across age, gender, raciaUethnic, cultural, disabdity, and/or linguis 
groups in the population oftest takers in ,he domain measured by l t, 
tesi developers should conduct appropriate studies w/ien >«««* 
(AERA APA, & NCME, 1999: 81). Ini berarti, pendeteksian DIF dapat 
dHakukan oleh lembaga atau pihak-pihak di luar pengembang tes dan 
menjadi kewajiban pengembang tes untuk memperhatikan 
menindaklanjuti temuannya. 


METODE PENDETEKSIAN DIF 

Ada beberapa metode pendeteksian DIF yang telah dikem¬ 
bangkan oleh para pakar. Menurut Scheuneman dan Bleistein ( 

220 ), metode pendeteksian DIF terbagi menjadi dua kelompok besar. 
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yaitu metode yang berdasarkan pendekatan teori tes klasik dan metode 
yang berdasarkan pendekatan teori respons butir. Perbedaan utama di 
antara keduanya adalah sebagai berikut. Metode pendeteksian D/F 
berdasarkan pendekatan teori tes klasik menggunakan skor total 
terobservasi (total obser\>ed score) sebagai representasi kemampuan 
peserta tes. Di sisi lain, pada metode pendeteksian D1F berdasarkan 
pendekatan teori respons butir, kemampuan peserta tes ditunjukkan 
oleh variabel laten (latent variable) dan karakteristik butir soal 
dinyatakan dalam parameter butir soal yang diestimasi berdasarkan 
teori respons butir. Metode-metode berdasarkan pend^l<at^n variabel 
laten sering disebut metode parametrik, 5 sebab menggunakan estimasi 
parameter, sedangkan metode-metode berdasarkan skor terobservasi 
sering disebut metode non-parametrik, sebab metode-metode tersebut 
tidak mengunakan model matematik untuk melakukan estimasi 
parameter (Penfield & Lam, 2000: 10). 

Walaupun metode pendeteksian DIF berdasarkan teori respons 
butir lebih disukai dibandingkan dengan metode pendgtgksian DIF 
berdasarkan teori tes klasik, karena landasan teorinya (Scheuneman 
dan Bleistein, 1999: 229), metode yang umumnya digunakan bukan¬ 
lah metode yang berdasarkan teori respons butir.'Metode yang justru 
banyak digunakan adalah metode berdasarkan teori tes klasik, 
misalnya metode Mantel-Haenszel (Embretson & Reise, 2000: 251), 
serta metode SIBTEST (Gierl, Khaliq, & Bpughtpn, 1999: 10). 

Pada pelaksanaan pendeteksian DIF , kelompok yang diselidiki 
apakah ada butir yang bias padanya disebut kelompok fokus (focal 
group ) dan kelompok pembandingnya disebut kelompok acuan 
(reference group). Di Amerika Serikat, misalnya, biasanya yang 
ditentukan sebagai kelompok acuan adalah kelompok kulit putih, se¬ 
dangkan yang ditentukan sebagai kelompok fokus adalah kelompok 
kulit hitam. Dalam perspektif gender, kelompok perempuan dapat 
ditentukan sebagai kelompok fokus dan kelompok acuannya adalah 
kelompok laki-laki, atau sebalikhya. 

Berikut ini disajikan secara singkat salah satu metode pende¬ 
teksian DIF yaitu meiode Mantel-Haenszel. 


METODE MANTEL-HAENSZEL 

Pada tahun 1959, Mantel dan Haenszel menampilkan prosedur 
untuk suatu studi pemadanan kelompok, yang oleh Holland dan 
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Thaver (1988: 129) dipakai untuk mendeteksi D1F, yang kemudian 
terkenal dengan metode Mantel-Haenszel Metode im merupakan 
metode yang powerful dan digunakan di Educattonal Testing 
(ETS) di Amerika Serikat (Dorans & Holland, 1993: 38). 

Pada penggunaan metode Mantel-Haenszel, peserta tes pada 
masing-masing kelompok (kelompok 

digolongkan menjadi M buah kategori berdasarkan pada level ke 
mampuan peserta tes. Kemampuan peserta tes mi disebut vanabel 

pemadanan (matching variable ), ymtu vanatel yang d.paka.^ebag^ 

dasar untuk pemadanan (matchmg) (Holland & T y > 

Pada metode Mantel-Haenszel, kemampuan peserta tes dmakil, oleh 
skor total peserta tes. Menurut Holland dan Thayer. pengeluaran butir 
soal vans diselidiki D/Fnya dari variabel pemadanan menyebabkan 
prosedur pendeteksian Mantel-Haenszel “w/// not behavecorrectly 
ihen there is no DI F' (Dorans & Holland, 1993:60). °'^ a ren^u 
pada metode Mantel-Haenszel, variabel pemadanan harus memuat 

butir soal yang diselidiki D/Fnya. 


Tabel II.L Tabel Kontingensi 2x2 untuk Butir Soal Tertentu pada 
Level Kemampuan ke-m 



Banyaknya 
Peserta Tes 
yang 

Menjawab 

Benar 

Banyaknya 
Peserta Tes 
yang 

Menjawab 

Salah 

Banyaknya 
Peserta Tes 
Secara 
Keseluruhan 

Kelompok 
fokus (0 

Rfm 

W fm 

Nfm 

Iv/Ivuo , 

Kelompok 
acuan (r) 

R rm 

^rm 

^rm 

Kelompok total 
(t) _ 

Rtm 

W lm 

N tm 


Data yang digunakan dalam metode Mantel-Haenszel adalah data 
,ada label kontingensi 2x2 sebanyak M buah atan data pada sebu h 
abel kontingensi besar berukuran 2x2xM, dengan M adalah 
sanyaknya penggolongan atas dasar level kemampuan pesu a 
Setiap tabel kontingensi 2x2 berbentuk seperti pada Tabel 
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Hipotesis nol DIF pada metode Mantel-Haenszel 

secara statistik adalah: 1 


yang diuji 


atau 


^rm 

H ° : 1. untuk m = 1,2,3, ... >M 

Wfm 


H 0 : 


R rm = R fm 
w rm w fm 


untuk m = 1 2 ^ *, 

’ 5 •*., M 


13.2 


Hipotesis nol tersebut menyatakan bahwa odds untuk 

jawaban benar pada kelompok fokus dan kelompok apt ! tk an 

sama pada setiap level variabel pemadanan. acuan a a ah 


Mantel dan Haenszel (Holland & Thayer, 1988- 
bangkan tes khi-kuadrat dari hipotesis nol DlF me j niengem- 
altematif, yang disebut constant odds ratio hvnnthJ^™ 1 P° t i es,s 
muskan sebagai berikut. Sls ’ ^ Iru ‘ 


Ha : a ^’ untuk m = 2 ’ 3 ’-> M dan a ^ 


1 11.3 


Perhatikan bahwa jika a = 1, hipotesis alternatif te h 
menjadi hipotesis nol DIF pada Persamaan 11 . 1 . Parameter 1 d™ ° 
common odds ratio pada M buah tabel kontingensi 2x2 ^ebab d* 
bawah H a , nilai a adalah common odds untuk setiap m yaitu 

Rrm 

a = W rm __ R rm w fm 

m j*fjn R fm w rm 11.4 

Wfm 


Mantel dan Haenszel menyediakan estimasi untuk 
ratio sebagai berikut (Holland & Thayer, 1988: common odds 

Holland, 1993: 40}: 


'34; Dorans & 


«MH 


Z 

— JH 


R r m Wfm 
Nim 


Z 

m 


kfm^rm 

Ntm 


11.5 




194 


B LuUyontr, Pen^<^Xar pe^ulcUa^H<XMLS(daje^r 


Estimasi tersebut adalah estimasi ukuran efek (efect si^e) DIF P ada 
metrik yang rentangannya mulai dari 0 sampai dengan *, dengan nilai 
r”engind1kasikan adiny. DIF yang nol, minya bnur soal yang 
bersangkutan tidak memuat DIF. Jika a MH > R maka butir yang 
diselidiki lebih menguntungkan kelompok acuan. Jika a MH < ! - 
maka butir yang diselidiki lebih menguntungkan kelompok lokus. 

Uji Signifikansi 

Mantel dan Haenszel mengembangkan statistik tes khi-kuadrat 
untuk menguji signifikansi hipotesis nol H 0 :a m = 1. untuk setiap m. 
Statistik tes khi-kuadrat tersebut dirumuskan sebaga, berikut (Holland 
& Thayer. 1988: 134; Dorans & Holland, 1993: 40): 


MH 2 

X 



1 

2 

ZRrm-LE(Rrm) 

-°,5 


m m 


_ 


£ Var(R r m) 


11.6 


m 


dengan 


E(R rm )=E(R im |a = l)=^m 

i N r mR t rr>N f m w t m 

Var(R ™ )= 

Statistik ujiMH^ P ada Persamaan 11.6 berdistnbusi khi-kuadrat 
dengan derajat kebebasan 1, jika H 0 benar. Kriteria pengambilan 
kepatusannya adalah sebagai berikut. Jika > X a: \ - nta ' <a * 3Ut ’ r 

soal yang bersangkutan secara signifikan terdeteksi DIF. 


Contoh 11.1 

Misalnya terdapat 10 butir soal dengan 40 peserta tes (20 peserta 
kelompok acuan dan 20 peserta kelompok fokus) seperu yang Wmpak 
nada Tabel 11.2. Sebagai kelompok acuan, misalnya, kelompok siswa 
Kkf dan sebagai kelompok fokus, misalnya, kelompok s,swa 

perempuan. 
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Tabel 11.2. Sebaran Skor untuk 20 Siswa Kelompok Acuan dan 20 Siswa 
Kelompok Fokus pada 10 Butir Soal 


No 

[ Kelompok Acuan 

j Kelompok Fokus 

urut 

Btr 

Btr 

B,r ! ... 

! Btr 

Skor 

i Btr 

: Btr 

Btr ! ... 

Btr 

Skor 

Siswa 

1 

2 

3 


! 50 

1 Tota 

1 

i i 

i 

7 

1 

10 

Total 

1 

1 

1 

1 


0 

9 

1 

i 

1 


0 

9 

2 

1 

0 

1 


1 

9 

0 

i 

1 


1 

9 

3 

1 

1 

1 


1 

9 

1 

i 

1 


1 

9 

4 

1 

1 

1 


1 

9 

1 

i 

1 


1 

9 

5 

\ 

1 

1 


1 

9 

1 

i 

1 


1 

9 

6 

1 

1 

1 



9 

1 

_!_ 

1 


1 

9 

7 

1 

0, 

. 1 


1 

8 

o i i 

1 


1 

8 

8 

1 

1 

0 


1 

8 

1 : i 

u 

_ 

i 

8 

9 



1 


0 

7 

! j i 

1 


' i 

7 J 

10 

1 

i 

0 


1 

n * 

i ; i i o 


i 

7 

11 

1 

1 

1 


1 

6 

i M i L 1 J 

_j 

0 

1 6 

12 

1 

0 

0 


0 

6 

0 

1 

0 


1 

6 

13 

1 

0 

; 1 


0 

5 

0 

. I 

1 


1 

5 

14 

1 

0 

0 


1 

•5 

0 

1 

0 


0 

5 

15 

1 

0 

1 


0 

4 

0 

1 

1 


0 

4 

16 


0 

0 


1 

4 

0 

1 

0 


1 0 

4 

17 

0 

1 

1 


0 

3 

1 

0 

1 


0 

3 

18 

1 

0 

0 


0 

3 

0 

I 

0 


0 

3 

19 

1 

1 

0 


0 

2 

1 

0 

0 


1 

2 

20 

0 

0 

0 


1 

2 

0 

_!_i 

0 


0 

2 


Penghitungan indeks DIF dan Uji Signifikansi untuk Butir Soal Contoh 1 1 i 
adalah sebagai berikut. 


Skor 

Total 

Klp Acuan 

Klp Fokus 

RrWf/Nt 

RfWr/Nt 

. E(Rr) 

Var(Rr) 

Rr 

Wr 

Rf 

Wf . 

9 

6 

0 

5 

1 

0,5 

0 

5,5 

0,25 

8 

2 

0 

1 

1 

0.5 

0 

1,5 

0.25 

7 

2 

0 

2 

0 . 

. o 

0 . 

. 2 

0 

6 

2 

0 

1 

1 

0,5 

o 

1,5 

0.25 

5 

2 

0 

0 

2 

1 

0 

1 

0.333 

4 

2 

0 

0 

2 

1 

! o 

1 

0.333 

3 

1 

1 

1 

1 

0,25 

0.25 

1 

0.333 

2 

1 

1 

1 

1 

0,25 

0,25 

1 

0,333 

Jum¬ 

lah 

18 

2 

11 

9 

4 

0.5 

14,5 

2,083 
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a MH 


R rm ^ trn 

Nun 


v ^ 6^ ^jH> ^ 
™ * N tm 


MH 7 = 

X~ 


r 

- 

2 


-0,5 


m m 


_ 


iVarCR^) 
m 


[|18-14,5|-0,5] 2 = 4 320 
2,083 


Diperoleh d MH = 8 dengan MH^= 4,320. Jika diambil tingkat 

signifikansi a = 5*. yang berani Z 2 05; i = 3 - 841 - maka butir soal nomor 1 

signifikan terkena DI F. Karena d MH > »- maka bl!tir soal n ° m0r ' ,erke " a 

DIF yang menguntungkan kelompok acuan. 

BAHAN DISKUSI 

1. Ketika memvalidasi kisi-kisi pada valtdasi pakar. pada aspek bahasa, 
sering ditulis indikator ’Tidak menggunakan bahasa daerah tertent 
(setempat)”. Apakah memasukkan indikator itu termasuk usaha pengu¬ 
rangan bias butir? Jelaskan alasan Anda. 

2. Perhatikan butir soal berikut. 

Ayah menyembelih seekor sapi untuk dijual dagingnya. Berat dagingnya 
adalah 500 kg. Jika harga daging adalah Rp20.000,00 per kg, berapa u g 
yang diperoleh ayah jika semua daging dijual? 

Apakah butir soal seperti itu membuat siswa daerah tertentu merasa 
terusik jiwanya, mengingat pada daerah itu sap. termasuk hewan 
keramat? Apakah butir soal seperti itu termasuk butir soal yang bias. 

3. Perhatikan butir soal berikut. 

Terdapat 3 buah becak dan 1 buah gerobag sampah. Berapa jumlah 
rodanya? 

Apakah butir soal itu merugikan siswa daerah tertentu- Mengapa? 

4. Tulislah sebuah butir soal yang memungkinkan siswa. daerah tertenUi 
tidak dapat mengerjakan karena ada istilah yang tidak dimengerti. Ap^ 
kah butir soal seperti itu bisa diujikan untuk Ujian Nasional? Mengapa. 

5. Perhatikan data pada Tabel 11.2. Lakukan analisis DIF untuk butir soal 
nomor 2, 3, dan 10. 


*** 
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